
Выбор темы
Музыкальные стриминговые сервисы — часть повседневной жизни: мы пользуемся ими почти автоматически, не задумываясь о том, какие данные остаются за каждым нажатием кнопки Play или Skip. Именно эта невидимая сторона привычного взаимодействия с цифровыми платформами и стала для меня отправной точкой выбора темы.
Мне было интересно посмотреть на музыкальный стриминг не как на интерфейс, а как на систему поведения: как различаются сценарии использования у людей с разными типами подписки, на каких устройствах музыка слушается дольше и активнее, какие паттерны могут быть связаны с потерей интереса к сервису.
Введение
В рамках проекта был проведен анализ пользовательских данных музыкального стримингового сервиса на примере Spotify. Музыкальные платформы ежедневно собирают огромные массивы информации о том, как, когда и в каком контексте люди взаимодействуют с контентом — эти данные становятся основой для продуктовых и бизнес-решений.
Цель исследования — выявить поведенческие паттерны аудитории, проследить различия между типами подписок и используемыми устройствами, а также определить факторы, которые могут быть связаны с оттоком клиентов. Особое внимание уделяется тому, как количественные метрики прослушивания отражают пользовательский опыт и вовлеченность.
Анализ сочетает в себе: • исследовательский подход к данным без заранее заданных гипотез, • объясняющую визуализацию, позволяющую интерпретировать сложные зависимости, • базовые статистические методы, применяемые для описания и сравнения наблюдений.

Данные и источник
Для анализа был использован табличный датасет в формате CSV, размещенный на платформе Kaggle.
Набор данных содержит 8000 наблюдений и описывает поведение пользователей музыкального стримингового сервиса на примере Spotify. Информация является синтетической, но воспроизводит структуру реальных клиентских записей.
В таблицу включены: • демографические характеристики, • сведения о типе подписки, • поведенческие метрики прослушивания (время, частота, пропуски треков), • признаки использования устройств, • бинарный индикатор оттока.
Формат и объем данных делают датасет удобным для исследовательского анализа и визуализации, а также позволяют демонстрировать работу с типичными задачами анализа пользовательского поведения.
Используемые инструменты
В работе использовались инструменты анализа данных на Python:
• Pandas — загрузка, обработка и агрегирование данных, • Matplotlib — базовая визуализация, • Seaborn — статистические графики и стилизация, • Google Colab — среда выполнения и демонстрации проекта.
Формат работы — Jupyter Notebook.
Этапы работы с данными
Анализ был выполнен по следующему сценарию:
1. Загрузка CSV-файла и первичный просмотр данных. 2. Проверка структуры таблицы и типов признаков. 3. Описательная статистика числовых переменных. 4. Исследование распределений. 5. Сравнение групп по подпискам и устройствам. 6. Визуализация взаимосвязей между признаками.
Каждый этап сопровождался графическим анализом.
Описательная статистика
Для числовых признаков была рассчитана описательная статистика с помощью метода df.describe ().
Анализ включал: • средние и медианные значения, • стандартное отклонение, • минимумы и максимумы, • квартильные значения.
Это позволило оценить масштаб данных, вариативность и наличие возможных выбросов.
Распределение возраста пользователей
Первый исследовательский график — гистограмма распределения возраста пользователей с KDE-кривой.
График позволяет: • увидеть основные возрастные группы, • оценить форму распределения, • выявить перекосы или аномалии.
Возраст пользователей распределен относительно равномерно в диапазоне от 16 до 60 лет, без выраженных экстремальных выбросов.
Время прослушивания и тип подписки
Для сравнения времени прослушивания между типами подписки был использован boxplot.
Этот тип графика позволяет одновременно анализировать: • медиану, • разброс значений, • квартильный диапазон, • выбросы.
Различия между подписками существуют, однако распределения во многом пересекаются, что указывает на схожие поведенческие паттерны.
Песни в день и Skip Rate
Для анализа взаимосвязи между количеством прослушанных песен в день и уровнем пропусков (skip rate) был построен scatter plot с цветовой кодировкой по типу подписки.
График показывает: • отсутствие сильной линейной зависимости, • высокую вариативность поведения, • схожесть паттернов между типами подписок.
Это подчеркивает сложность пользовательского поведения и невозможность его объяснения одним фактором.
Устройства
Для сравнения распределений времени прослушивания по типу устройства был использован violin plot.
Этот график сочетает: • плотность распределения (KDE), • квартильную структуру, • визуальную наглядность формы данных.
Распределения для Desktop, Web и Mobile схожи по форме, однако отличаются плотностью и характером использования.
Изучающий и объясняющий подход
Визуализации в проекте выполняют двойную функцию: • Изучающую — помогают исследовать данные без заранее заданных гипотез. • Объясняющую — позволяют интерпретировать результаты и доносить выводы.
Каждый график отвечает на конкретный вопрос и сопровождается трактовкой.
Используемые статистические методы
В проекте использовались следующие статистические методы: • описательная статистика (mean, median, std, quartiles), • визуальный анализ распределений, • сравнение числовых признаков между категориями, • анализ взаимосвязей между переменными.
Методы ориентированы на exploratory data analysis и интерпретацию данных.
Выводы
Анализ данных показал, что поведение пользователей музыкального стримингового сервиса формируется совокупностью факторов, а не одним параметром.
1. Возрастная структура аудитории распределена относительно равномерно в диапазоне от 16 до 60 лет. Это указывает на отсутствие доминирующей возрастной группы и подтверждает, что музыкальный стриминг является универсальным сервисом для разных поколений.
2. Время прослушивания слабо различается между типами подписки. Несмотря на ожидание, что платные подписки будут существенно отличаться по активности, распределения времени прослушивания для Free, Family, Premium и Student во многом пересекаются. Это говорит о том, что сама подписка не является решающим фактором вовлеченности.
3. Связь между количеством прослушанных песен в день и уровнем пропусков (skip rate) выражена слабо. Scatter plot демонстрирует высокую вариативность поведения: пользователи с одинаковым количеством прослушиваний могут иметь как низкий, так и высокий skip rate. Это указывает на индивидуальные сценарии потребления контента.
4. Тип устройства влияет на характер использования сервиса. Violin plot показывает различия в распределении времени прослушивания между Desktop, Web и Mobile, что отражает разные контексты использования — фоновое прослушивание, активный выбор треков или мобильные сессии.
5. В целом, отток пользователей нельзя объяснить одним показателем. Поведенческие метрики работают в комплексе, и для более точных выводов потребовался бы многомерный анализ с учетом нескольких признаков одновременно.
Таким образом, визуальный и статистический анализ подтверждает, что пользовательское поведение в музыкальном стриминге является сложным и многофакторным, а простые линейные зависимости в данных отсутствуют.
Описание применения генеративной модели
В ходе выполнения проекта использовалась генеративная модель ChatGPT (OpenAI).
Модель применялась для: • консультаций по работе с Pandas и визуализациям, • помощи в формулировке текстовых пояснений, • структурирования аналитического повествования.
Генеративная модель не использовалась для автоматической генерации кода проекта.
Исходные материалы
• Jupyter Notebook с кодом анализа • CSV-файл с исходными данными