
В этом проекте я анализирую характеристики видео на платформе YouTube и исследую, какие факторы могут быть связаны с их популярностью. Работа построена на анализе табличных данных с использованием Python, Pandas и Matplotlib
Я выбрала именно эту тему, потому что YouTube — одна из ключевых медиаплатформ современности, формирующая культурные и визуальные тренды.
Анализ данных YouTube позволяет изучать не только поведение аудитории, но и принципы распространения контента
Данные
В проекте используется синтетический датасет, созданный в учебных целях и имитирующий реальные данные YouTube: просмотры, лайки, длительность видео, год публикации и категория контента
Инструменты
В проекте мной были использованы следующие инструменты: Python Pandas Matplotlib Google Colab
Для оптимизации мной использовался ChatGPT
Я использовала методы описательной статистики и визуального анализа данных: анализ распределений (гистограмма) вычисление средних значений (mean) группировка данных по категориям и годам, визуальный анализ зависимостей между переменными. Эти методы позволяют выявлять закономерности без применения сложных моделей машинного обучения
Основные этапы работы
Этап 1. Подготовка среды и библиотек
На первом этапе были подключены основные библиотеки для анализа данных и визуализации: Pandas — для работы с табличными данными Matplotlib — для построения графиков
import pandas as pd import matplotlib.pyplot as plt
Этап 2. Загрузка датасета
Данные были загружены из CSV-файла в DataFrame Pandas. После загрузки была проведена первичная проверка структуры данных
df = pd.read_csv («youtube_dataset.csv») df.head ()
На этом этапе я анализировала количество столбцов, типы данных, наличие пропусков
Этап 3. Настройка визуального стиля
Для создания единого визуального стиля инфографики были заданы тёмный фон, светлый текст, одинаковые размеры графиков. Все параметры заданы кодом, без постобработки
plt.rcParams.update ({ «figure.figsize»: (9, 5), «axes.facecolor»: «#0e1117», «figure.facecolor»: «#0e1117», «axes.labelcolor»: «white», «xtick.color»: «white», «ytick.color»: «white», «text.color»: «white» })
Этап 4. Анализ распределения просмотров
Для изучения того, как распределяются просмотры видео, была построена гистограмма
plt.hist (df[«views»], bins=30) plt.title («Распределение просмотров видео на YouTube») plt.xlabel («Просмотры») plt.ylabel («Количество видео») plt.show ()
Этап 5. Сравнение категорий контента
Данные были сгруппированы по категориям, после чего было вычислено среднее количество просмотров
cat_views = df.groupby («category»)[«views»].mean ().sort_values () cat_views.plot (kind="bar») plt.title («Средние просмотры по категориям») plt.ylabel («Средние просмотры») plt.show ()
Этап 6. Анализ зависимости между переменными
Для анализа связи между длительностью видео и просмотрами был использован scatter-график
plt.scatter (df[«duration_min»], df[«views»], alpha=0.4) plt.title («Зависимость просмотров от длительности видео») plt.xlabel («Длительность (минуты)») plt.ylabel («Просмотры») plt.show ()
Этап 7. Анализ временных трендов
Были сгруппированы данные по годам и построен линейный график
year_views = df.groupby («year»)[«views»].mean () plt.plot (year_views, marker="o») plt.title («Средние просмотры видео по годам») plt.xlabel («Год») plt.ylabel («Средние просмотры») plt.show ()
В ходе исследования было выявлено, что популярность видео распределена неравномерно. Разные категории контента демонстрируют разный средний уровень просмотров. А длительность видео не имеет прямой связи с популярностью. Также было отмечено, что со временем среднее количество просмотров растёт
Итоговые графики
Блокнот с кодом и датасет
Как итог, проект демонстрирует возможности анализа и визуализации данных как инструмента исследования цифровых платформ и культурных процессов