
Описание датасета
В рамках данного проекта был использован датасет top_rated_2000webseries.csv, содержащий информацию о веб-сериалах с высокими пользовательскими рейтингами. Данные включают название сериала, жанровую принадлежность (один или несколько жанров), пользовательский рейтинг, количество голосов, показатель популярности, а также дату премьеры.
После предварительной очистки данные используются для анализа пользовательских оценок, жанровой структуры и динамики рейтингов во времени.
Цель исследования
Целью проекта является анализ рынка веб-сериалов с точки зрения пользовательского восприятия: выявление наиболее популярных проектов, жанров с наивысшими средними рейтингами, а также изучение взаимосвязей между рейтингом, количеством голосов и временем выхода сериала.
График 1. Распределение пользовательских рейтингов
Гистограмма отражает распределение значений рейтинга среди веб-сериалов. Основная часть наблюдений сосредоточена в верхнем диапазоне шкалы, что ожидаемо для выборки, состоящей из топ-рейтинговых проектов. Низкие значения рейтинга встречаются значительно реже.

График 2. Топ-10 сериалов по количеству голосов
Столбчатая диаграмма демонстрирует сериалы с наибольшим количеством пользовательских голосов. Данный показатель можно интерпретировать как индикатор популярности и вовлечённости аудитории. Даже среди высоко оценённых сериалов наблюдаются значительные различия по уровню пользовательского интереса.
График 3. Связь рейтинга и количества голосов
Точечная диаграмма показывает взаимосвязь между рейтингом сериала и количеством голосов (для удобства интерпретации используется логарифмическое преобразование числа голосов). Явной линейной зависимости не наблюдается: высокое число голосов не обязательно сопровождается более высоким рейтингом, что подчёркивает различие между популярностью и качественной оценкой контента.
График 4. Топ-10 жанров по среднему рейтингу
На данном графике представлены жанры с наибольшим средним пользовательским рейтингом. Результаты показывают, что некоторые жанры стабильно получают более высокие оценки, что может быть связано с особенностями аудитории, тематикой и форматом повествования.
График 5. Распределение рейтингов по годам премьеры (с 2010 года)
Boxplot по годам премьеры позволяет оценить динамику распределения рейтингов во времени. В целом медианные значения рейтинга остаются относительно стабильными, однако разброс оценок по годам может различаться, отражая изменения в качестве и разнообразии выпускаемого контента.
График 6. Наиболее распространённые жанры (топ-10)
Горизонтальная столбчатая диаграмма отображает наиболее часто встречающиеся жанры среди веб-сериалов. Такой анализ позволяет оценить структуру рынка и определить жанры, которые доминируют по количеству проектов, независимо от уровня рейтинга.
Заключение
В результате анализа были выявлены следующие ключевые закономерности:
Визуализация данных позволила наглядно сравнить сериалы и жанры по ключевым метрикам и получить целостное представление о структуре рынка веб-сериалов.
Использование ИИ
В рамках проекта генеративная модель ChatGPT (OpenAI) использовалась в качестве вспомогательного инструмента для:
ИИ не заменял самостоятельный анализ данных и использовался исключительно как поддерживающий инструмент.