
Введение

Для анализа я выбрала датасет с сайта Kaggle, содержащий 114 000 записей о музыкальных треках стримингового сервиса Spotify, относящихся к 125 различным жанрам. Данные представлены в формате CSV и включают информацию о популярности треков, жанрах и аудио-характеристиках.
Выбор этого датасета связан с тем, что музыка является частью повседневной жизни большинства людей, а стриминговые сервисы напрямую влияют на то, какие жанры и треки становятся популярными. Spotify — один из самых крупных музыкальных сервисов, поэтому его данные позволяют наглядно посмотреть, как распределяется популярность между жанрами и какие направления доминируют.
Цель: с помощью визуального анализа данных изучить различия между музыкальными жанрами и понять, как они связаны с популярностью треков на платформе.

Цветовую палитру для визуализаций сгенерировал ChatGPT, опираясь на стилистику Spotify
Используемые материалы
В ходе работы я использовала следующие инструменты:
- Pandas — загрузка, фильтрация и агрегация данных - Matplotlib — построение и стилизация графиков - Шрифт Montserrat — визуальное оформление графиков
Визуализация

Для визуализации данных я использовала несколько типов графиков, так как каждый из них позволяет по-разному посмотреть на характеристики музыкальных треков.
Для анализа распределения значений применялась гистограмма, которая помогает понять, как часто встречаются определённые значения параметров (например, энергичность или танцевальность).
Для сравнения средних значений между жанрами использовалась столбчатая диаграмма, позволяющая наглядно сопоставить музыкальные характеристики разных направлений.
Для анализа связи между параметрами был выбран точечный график, который помогает увидеть зависимости, например, между популярностью треков и их энергичностью.
Также использовалась коробчатая диаграмма, позволяющая сравнить разброс значений и выявить различия между жанрами.
На графике показана средняя популярность треков в десяти наиболее представленных жанрах. Видно, что жанры отличаются не только количеством треков, но и средним уровнем популярности. Например, pop-film и k-pop демонстрируют более высокие средние значения, тогда как emo и pop находятся ниже. Это говорит о том, что высокая представленность жанра в датасете не всегда означает более высокую популярность треков внутри него.
Второй график показывает распределение популярности музыкальных треков на платформе. По нему видно, что большинство композиций имеют средние значения популярности, тогда как действительно популярные треки встречаются значительно реже. Это говорит о том, что успех в стриминговых сервисах распределён неравномерно: основная масса музыки остаётся в среднем сегменте, а лидеры по популярности составляют небольшую часть всего каталога.
Данный график показывает связь между уровнем энергичности треков и их популярностью. Видно, что наиболее популярные треки чаще располагаются в зоне средних и высоких значений энергичности, тогда как композиции с низкой энергичностью реже достигают высоких показателей популярности. При этом зависимость не является жёсткой: встречаются как энергичные, но непопулярные треки, так и менее энергичные, которые всё же находят свою аудиторию.
Это говорит о том, что энергичность влияет на популярность, но не является единственным определяющим фактором успеха трека.
Для анализа распределения популярности были выбраны пять жанров, которые чаще всего встречаются в датасете и содержат достаточное количество треков для сравнения. Это позволяет избежать искажения результатов, которое могло бы возникнуть при анализе жанров с очень малым числом наблюдений. График показывает, что даже внутри одного жанра популярность треков может сильно различаться: у всех жанров наблюдается широкий диапазон значений — от малоизвестных треков до очень популярных. При этом некоторые жанры в среднем демонстрируют более высокие показатели популярности, тогда как в других преобладают треки со средними и низкими значениями.
Таким образом, жанр влияет на уровень популярности, но не определяет его полностью: внутри каждого жанра существует значительное разнообразие треков по уровню востребованности.
На данном графике показаны средние значения основных музыкальных характеристик для выбранных жанров. Такой подход позволяет сравнить жанры не по отдельным трекам, а по их общему «звучанию» и характеру. Визуализация показывает, что жанры отличаются между собой по уровню энергичности, танцевальности и настроению. Например, одни жанры в среднем более энергичные и динамичные, другие — более спокойные и размеренные.
Это подтверждает, что жанры формируются не только культурно, но и через конкретные музыкальные параметры, которые можно наглядно сравнивать с помощью данных.
Заключение

В ходе анализа данных Spotify удалось последовательно рассмотреть музыкальные жанры с разных сторон. Сначала было изучено общее распределение популярности треков, что позволило увидеть, что большая часть композиций имеет средние значения популярности, а действительно популярные треки встречаются реже.
Далее сравнение жанров показало, что уровень популярности заметно отличается в зависимости от музыкального направления. Некоторые жанры стабильно демонстрируют более высокие значения, тогда как другие остаются нишевыми.
Анализ связи энергичности и популярности показал, что между этими показателями нет прямой зависимости: высокая энергичность сама по себе не гарантирует успех трека. Это подчёркивает, что популярность формируется под влиянием нескольких факторов.
Сравнение распределений популярности для выбранных жанров позволило увидеть различия не только в средних значениях, но и в характере разброса данных.
Наконец, анализ средних значений аудиохарактеристик по жанрам показал, что жанры действительно отличаются по своему «звуковому профилю».
В целом визуальный анализ подтвердил, что музыкальные жанры на Spotify имеют устойчивые различия, которые можно выявить и интерпретировать с помощью графиков, не прибегая к сложным моделям.
Описание использования генеративной модели
В процессе работы над проектом использовалась генеративная модель ChatGPT 5.2. С её помощью были подобраны цветовая палитра для визуализаций, настроен шрифт для оформления графиков в Google Colab, а также получена помощь при исправлении ошибок в коде и корректной настройке визуализаций.
Генеративная модель использовалась как вспомогательный инструмент для технической поддержки и улучшения визуального оформления, при этом анализ данных, выбор графиков и интерпретация результатов выполнялись самостоятельно.