
КОНЦЕПЦИЯ
Музыка — это способ регулировать состояние: мы включаем определённые треки, когда хотим сосредоточиться, успокоиться, зарядиться энергией или наоборот — прожить грусть. Меня заинтересовал вопрос: можно ли увидеть это настроение в данных и действительно ли музыка «знает», какие эмоции она вызывает.
Spotify — особенно интересный объект для анализа, потому что он переводит субъективные ощущения в количественные параметры. Такие характеристики, как valence (позитивность), energy (энергичность), по сути, являются попыткой оцифровать эмоции и телесные реакции на музыку. Это редкий случай, когда данные напрямую связаны с чувствами.
Музыкальные данные позволяют ответить на вопросы о том, почему одни жанры ощущаются «светлее», а другие более напряжёнными, есть ли связь между темпом и настроением, и насколько предсказуемо эмоциональное восприятие музыки.
Какие данные были использованы и откуда они получены
Для проекта был использован открытый датасет Spotify Tracks Dataset, найденный на платформе Kaggle.
Он содержит информацию о более чем 230 000 треков, включая жанр, исполнителя, идентификатор трека, набор аудиохарактеристик, рассчитанных алгоритмами Spotify.
Большой объём данных позволил рассмотреть общие закономерности, что особенно важно для анализа настроения и жанровых различий.
Мой проект задуман как исследование, которое можно читать и рассматривать, постепенно понимая, как данные описывают музыкальный опыт. Цель проекта — изучить взаимосвязи между аудиохарактеристиками и музыкальным настроением, а также показать различия между жанрами.
Этапы работы с данными
Работа с датасетом началась с загрузки данных в Google Colab и первичного знакомства со структурой таблицы. Я изучила количество строк и столбцов, типы данных и наличие пропусков, чтобы убедиться, что датасет подходит для дальнейшего анализа.
Затем данные были очищены и подготовлены: я отобрала ключевые аудиопризнаки, которые напрямую связаны с восприятием музыки, такие как позитивность, энергичность, танцевальность, темп, громкость и длительность трека. Для удобства анализа длительность была переведена из миллисекунд в минуты.
На этом этапе было важно понять, какие вопросы я задаю данным и какие характеристики действительно имеют смысл в контексте темы.
Визуальный стиль и оформление
Все визуализации были выполнены в едином стиле: тёмный фон, зелёная палитра и минималистичное оформление. Это отсылает к интерфейсу музыкальной платформы и создаёт ощущение «цифровой среды», связанной с потоковой музыкой.
Цвета, сетка, шрифты и параметры графиков задавались непосредственно в коде с помощью Matplotlib, без последующей обработки в графических редакторах. Это позволило сохранить консистентность визуализаций и сделать стиль частью самого анализа.
Анализ и визуализация данных
Первым шагом стало исследование распределения позитивности музыки в целом. Гистограмма показывает, что большинство треков сосредоточены в среднем диапазоне значений. Крайне «грустных» и крайне «радостных» треков заметно меньше, что может говорить о стремлении музыки к эмоциональному балансу.
Распределение позитивности по жанрам
Далее я сравнила популярные жанры по уровню позитивности. Этот график показывает, что жанры действительно отличаются друг от друга по эмоциональной окраске. Некоторые из них тяготеют к более светлому и оптимистичному настроению, в то время как другие демонстрируют более сдержанный или напряжённый характер.
Связь темпа и позитивности
На следующем этапе я исследовала связь между темпом трека и его позитивностью. Диаграмма рассеяния показывает, что прямой зависимости между этими параметрами нет, однако можно заметить, что треки с высоким темпом чаще имеют более высокую позитивность. Это подтверждает интуитивное ощущение, что быстрые композиции чаще воспринимаются как энергичные и радостные.
Корреляционная матрица аудиопризнаков
Следующим этапом визуального анализа стала корреляционная матрица. Она позволяет увидеть, какие аудиопризнаки связаны между собой. Наиболее заметная связь наблюдается между энергичностью и громкостью, а также между позитивностью и танцевальностью. При этом многие параметры оказываются слабо связаны, что говорит о многомерности музыкального восприятия.
Распределение позитивности по популярным жанрам
На этом графике показано распределение показателя позитивности настроения (valence) для наиболее популярных музыкальных жанров. Для каждого жанра визуализировано, как именно распределяются значения — от самых низких до самых высоких, а также где находится медиана.
График позволяет увидеть, что жанры заметно отличаются по эмоциональной окраске. Например, более лёгкие и развлекательные жанры, такие как pop и jazz, в среднем имеют более высокие значения позитивности, тогда как electronic и soundtrack демонстрируют более сдержанное или нейтральное настроение. При этом внутри каждого жанра наблюдается широкий разброс значений, что говорит о разнообразии эмоциональных состояний даже в рамках одной музыкальной категории.
Связь темпа и позитивности треков
Завершающий график показывает взаимосвязь между темпом трека и его позитивной эмоциональной окраской. Каждая точка соответствует отдельному треку, где по горизонтали отложен темп, а по вертикали — показатель позитивности. Цвет точек дополнительно кодирует уровень энергичности трека.
Из визуализации видно, что между темпом и позитивностью нет жёсткой линейной зависимости: быстрые треки могут быть как позитивными, так и нейтральными или даже эмоционально сдержанными. Однако заметно, что треки с более высокой энергичностью чаще располагаются в зоне средних и высоких значений позитивности, особенно при среднем и высоком темпе.
В проекте использовались базовые методы описательной статистики: вычисление среднего значения, медианы, стандартного отклонения и квартилей. Для анализа связей между признаками применялась корреляция Пирсона.
Основной акцент был сделан не на сложных математических моделях, а на интерпретации данных и визуальном объяснении закономерностей.
Описание применения генеративной модели
В процессе работы использовалась генеративная модель ChatGPT для консультаций по синтаксису Python, работе с библиотеками Pandas и Matplotlib, а также для помощи в формулировке аналитических выводов и структурировании презентации. Модель применялась как вспомогательный инструмент и не заменяла самостоятельный анализ данных.
Выводы
В ходе проекта удалось показать, что музыкальные эмоции действительно частично отражаются в числовых характеристиках, однако они не сводятся к простым зависимостям. Музыка остаётся сложным и многослойным явлением, где цифры помогают увидеть общие тенденции, но не отменяют субъективного восприятия.
Проект показал, что данные могут быть не только аналитическим инструментом, но и способом рассказать историю — в данном случае историю о том, как музыка взаимодействует с эмоциями.