Original size 1140x1600

Топ-2000 веб-телесериалов с самым высоким рейтингом по версии TMDB

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Для своего проекта я выбрал набор данных о Топ-2000 веб-телесериалов с самым высоким рейтингом по версии TMDB, представленный на платформе Kaggle в формате CSV — смотреть датасет.

Я решил выбрать эту тему, когда в очередной раз искал какой сериал посмотреть работая над другими проектами. И так как я люблю смотреть сериалы я захотел провести их глубокий анализ с 1951 по 2025 год. Такое исследование позволит глубже понять тенденцию популярности сериалов и почему именно их выбирают люди.

В своем анализе я визуализирую данные с помощью гистограммы, круговой и столбчатой диаграммы, диаграммы рассеивания, а также линейного графика. Эти инструменты позволяют более наглядно представить ключевые выводы исследования.

Этапы работы

Для начала я импортировал Pandas, 
с помощью которого собираюсь проводить 
анализ данных. Я загрузил данные и вывел датасет и информацию о нём. Более точечные комментарии я писал внутри Google Colab, чтобы не запутаться в последовательности.

big
Original size 2908x1156

После импорта данных из файла, 
нужно их правильно отсортировать. Я выполняю подготовку данных к анализу: нормализирую категориальные значения, числовые колонки приводятся к корректному типу, жанры сериалов разбиваются на отдельные элементы, а также удаляются пустые значения, после чего я проверяю структуры данных и корректность их изменений.

big
Original size 2788x1424
0

Далее я решил настроить цвета для будущих графиков. Мне захотелось видеть графики в бежевых тонах.

0

1. Гистограмма — распределение рейтингов сериалов.

Я решил создать гистограмму, чтобы проанализировать распределение рейтингов сериалов и понять, в каком диапазоне сосредоточено большинство оценок. По оси X отложены значения рейтинга, а по оси Y — количество сериалов, попадающих под интервал. Дополнительно была использована сглаживающая кривая, чтобы подчеркнуть общую тенденцию распределения.

Результат: зрители чаще всего оценивают сериалы в диапазоне 7.5–8.5, что показывает склонность выбирать хорошо сбалансированные проекты, а не исключительно выдающиеся или слабые.

Original size 3028x803
Original size 860x479

2. Круговая диаграмма — распределение сериалов по странам.

Дальше я использую круговую диаграмму, чтобы показать структуру распределения сериалов по странам-производителям. Такой график по мне был более корректен в отображении стран, которые доминируют на рынке. Каждый сектор диаграммы соответствует стране, а его размер отражает долю сериалов, произведенных в этой стране относительно общего количества.

Результат: США стоит в лидерах по производству сериалов, а также значительный вклад вносят Великобритания, Япония и Южная Корея.

Original size 2540x528
Original size 597x581

3. Столбчатая диаграмма — популярность жанров.

Для сравнения количества сериалов в разных жанрах я выбрал столбчатую диаграмму, потому что она наиболее наглядно подходит для сопоставления категориальных данных. Каждая колонка соответствует отдельному жанру, а высота отражает количество сериалов, относящихся к этому жанру. Этот график помогает понять какие жанры чаще всего снимались и понять зрительские предпочтения.

Результат: чаще всего люди выбирают для просмотра драму, комедию и экшн, потому что эти жанры универсальны и эмоциональны.

Original size 2384x716
Original size 870x579

4. Scatter-график — уровень зрительского интереса.

Scatter-график выявляет взаимосвязь между качеством и популярностью сериалов на уровне жанров, а не отдельных проектов. В данном случае каждая точка соответствует одному жанру. По горизонтальной оси показан средний рейтинг жанра, а по вертикальной — среднее количество голосов, отражающих уровень зрительского интереса. Размер точки показывает количество сериалов в жанре, что дополнительно оценивает степень популярности жанра.

Результат: наглядно показана взаимосвязь между рейтингом сериала и количеством голосов, показывая, что высокий рейтинг не всегда сопровождается большим числом голосов и выявляет отсутствие строгой линейной зависимости между этими показателями.

Original size 806x682
Original size 972x556

5. Линейный график — динамика выхода сериалов по годам

Для анализа изменений во времени был выбран линейный график, который отображает временной ряд, в котором менялось количество выпускаемых сериалов от года к году. Линяя позволяет визуально отследить рост или спад активности на рынке. Также создается понимание, в какие года пришла популярность сериалов и выявить периоды роста или спада интереса аудитории.

Результат: после 2000 года выбор стал шире из-за роста стриминговых сервисов. Люди стали иметь доступ к большему количеству сериалов, и они пробуют разные жанры и страны производства, а не ограничиваются локальными проектами.

Original size 2352x656
Original size 860x479

Описание применения генеративной модели

Я пользовался искусственным интеллектом такой как Perplexity. Promt: Write Python code (for Google Colab) that creates a single combined scatter plot using pandas and matplotlib/seaborn. Each point should represent one TV show from the dataset. The chart should visualize the relationship between two meaningful variables (for example, rating vs votes or popularity vs rating). Add clear axis labels, a title, and improve readability using transparency (alpha) and appropriate point size. The code should be ready to run. А также ChatGpt для уточнения некоторых моментов связанных с ошибками кода, которые я не мог понять.