Original size 1024x1536

KILLJOYS NEVER DIE | Анализ текстов MCR

PROTECT STATUS: not protected
The project is taking part in the competition

Я анализирую датасет MCRlyrics.csv с текстами песен My Chemical Romance. В таблице есть поля: Album, Title, Year, Lyrics.

Лирика — важная часть образа группы, и мне интересно посмотреть, как меняются тексты между альбомами: длина песен, разнообразие словаря, частотные слова и условные «темы».

Для проекта я использовала Python и различные библиотеки для обработки данных и визуализации.

Итоговые визуализации

Подготовка данных

Прочитала CSV через pandas.read_csv ().

Очистила тексты: привела к нижнему регистру, убрала пунктуацию/цифры с помощью re, разбила на слова (токены).

Убрала стоп-слова (служебные слова и часто встречающийся «шум»), чтобы топ-слова отражали смысл, вместо грамматики.

Стиль и оформление

Для симпатичной инфографики я настроила единый стиль Matplotlib через rcParams. Цвета взяла с одной из обложек альбома группы с помощью Adobe Color.

big
Original size 1419x298

Палитра проекта.

Одинаковая сетка, единые цвета, единые размеры шрифтов. Повышенное качество вывода (dpi), чтобы графики хорошо смотрелись в проекте.

Метрики, которые я посчитала

word_count — количество слов в песне unique_words — количество уникальных слов lexical_diversity = unique_words / word_count — простая оценка разнообразия словаря частота слов в целом и по альбомам (через Counter) частота слов-маркеров для тем (любовь/смерть/боль)

Статистические методы

Описательная статистика: среднее и медиана длины текста, сравнение между альбомами (groupby, mean, median). Частотный анализ: подсчёт частот токенов и топ-слов (Counter). Сравнение по группам: агрегация по альбомам и годам (groupby). Маркерный подход к темам: подсчёт заранее заданных слов-маркеров (например, love/heart/kiss… и death/dead/die…) и сравнение сумм по альбомам.

Итоговые визуализации

Original size 1581x859

Горизонтальная столбчатая диаграмма.

По сравнению средней длины текстов песен лидирует Danger Days: в среднем 141 слово на трек. Самые короткие тексты в этом датасете у Three Cheers — 108 слов. Bullets и The Black Parade ближе друг к другу по этому показателю (123 и 119 слов), поэтому общий сдвиг заметен именно в сторону более длинной лирики к Danger Days.

Original size 1579x619

Линейный график

График по годам описывает не реальную активность группы, а структуру выбранного набора данных: в нём 10 песен за 2002 год, 13 за 2004, 14 за 2006 и 15 за 2010. Различия между годами в проекте отражают то, как собран датасет, и этот контекст нужно учитывать при интерпретации результатов.

Original size 1743x747

Тепловая карта

Тепловая карта частот показывает, что альбомы отличаются не только набором слов, но и тем, какие слова становятся доминирующими. Для The Black Parade максимальная частота у слова down, а для Danger Days резко выделяется heart. У Three Cheers высокие значения у down и особенно у see, тогда как у Bullets распределение более ровное без экстремальных пиков. Это даёт характерные словарные профили для каждого альбома.

Original size 1739x939

Группированная столбчатая диаграмма

В тематическом сравнении по словам-маркерам любовь встречается чаще всего во всех альбомах, но доля смерти и боли заметно меняется. У Bullets и The Black Parade любовь почти на одном уровне, но The Black Parade даёт максимум по смерти и боли, что делает его самым тяжёлым по этой метрике. Danger Days, наоборот, показывает более низкие значения для смерти и боли при сохранении высокой частоты любви, поэтому он выглядит самым смещённым в сторону меньшей мрачности среди рассмотренных альбомов.

Используемые библиотеки

pandas, numpy, re, collections, textwrap, matplotlib