
Я анализирую датасет MCRlyrics.csv с текстами песен My Chemical Romance. В таблице есть поля: Album, Title, Year, Lyrics.
Лирика — важная часть образа группы, и мне интересно посмотреть, как меняются тексты между альбомами: длина песен, разнообразие словаря, частотные слова и условные «темы».
Для проекта я использовала Python и различные библиотеки для обработки данных и визуализации.
Прочитала CSV через pandas.read_csv ().
Очистила тексты: привела к нижнему регистру, убрала пунктуацию/цифры с помощью re, разбила на слова (токены).
Убрала стоп-слова (служебные слова и часто встречающийся «шум»), чтобы топ-слова отражали смысл, вместо грамматики.
Для симпатичной инфографики я настроила единый стиль Matplotlib через rcParams. Цвета взяла с одной из обложек альбома группы с помощью Adobe Color.

Палитра проекта.
word_count — количество слов в песне unique_words — количество уникальных слов lexical_diversity = unique_words / word_count — простая оценка разнообразия словаря частота слов в целом и по альбомам (через Counter) частота слов-маркеров для тем (любовь/смерть/боль)
Описательная статистика: среднее и медиана длины текста, сравнение между альбомами (groupby, mean, median). Частотный анализ: подсчёт частот токенов и топ-слов (Counter). Сравнение по группам: агрегация по альбомам и годам (groupby). Маркерный подход к темам: подсчёт заранее заданных слов-маркеров (например, love/heart/kiss… и death/dead/die…) и сравнение сумм по альбомам.
Горизонтальная столбчатая диаграмма.
По сравнению средней длины текстов песен лидирует Danger Days: в среднем 141 слово на трек. Самые короткие тексты в этом датасете у Three Cheers — 108 слов. Bullets и The Black Parade ближе друг к другу по этому показателю (123 и 119 слов), поэтому общий сдвиг заметен именно в сторону более длинной лирики к Danger Days.
Линейный график
График по годам описывает не реальную активность группы, а структуру выбранного набора данных: в нём 10 песен за 2002 год, 13 за 2004, 14 за 2006 и 15 за 2010. Различия между годами в проекте отражают то, как собран датасет, и этот контекст нужно учитывать при интерпретации результатов.
Тепловая карта
Тепловая карта частот показывает, что альбомы отличаются не только набором слов, но и тем, какие слова становятся доминирующими. Для The Black Parade максимальная частота у слова down, а для Danger Days резко выделяется heart. У Three Cheers высокие значения у down и особенно у see, тогда как у Bullets распределение более ровное без экстремальных пиков. Это даёт характерные словарные профили для каждого альбома.
Группированная столбчатая диаграмма
В тематическом сравнении по словам-маркерам любовь встречается чаще всего во всех альбомах, но доля смерти и боли заметно меняется. У Bullets и The Black Parade любовь почти на одном уровне, но The Black Parade даёт максимум по смерти и боли, что делает его самым тяжёлым по этой метрике. Danger Days, наоборот, показывает более низкие значения для смерти и боли при сохранении высокой частоты любви, поэтому он выглядит самым смещённым в сторону меньшей мрачности среди рассмотренных альбомов.