
КОНЦЕПЦИЯ
Футбол — один из самых популярных видов спорта в мире, который в последнее время привлёк и моё внимание. Именно поэтому я решила создать проект о лигах Большой пятёрки.
Для проекта был выбран датасет Big Five European Football Leagues Results (1995–2019) с сайта, включающий результаты матчей пяти крупнейших европейских чемпионатов: Англии, Германии, Италии, Испании и Франции. Датасет содержит информацию о командах, количестве забитых голов дома и в гостях, сезонах, результатах матчей и разнице голов.
Основным фокусом анализа стали показатели результативности команд и динамика голов по сезонам. Такой подход позволяет выявить статистические закономерности, связанные с домашними победами, разницей голов, а также сравнивать различные лиги и команды между собой. Анализ даёт возможность наглядно продемонстрировать тенденции, выявить лидеров и слабые стороны, а также визуализировать динамику футбольных событий на протяжении почти 25 лет.
ВЫБРАННЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ
Для визуализации данных я выбрала графики, показывающие ключевые аспекты футбольных матчей: Линейный график среднего количества голов дома и в гостях — демонстрирует динамику результативности команд в зависимости от места. Гистограмма разницы голов — показывает частоту побед с разным преимуществом и разброс результатов. Столбчатая диаграмма топ‑20 команд по домашним победам — выявляет лидеров и наглядно сравнивает успехи команд. Ящик с усами распределения голов по лигам — сравнивает показатели разных чемпионатов и показывает разброс голов. Точечная диаграмма домашних и гостевых голов — иллюстрирует зависимость результативности команды дома и в гостях.
ЭТАПЫ РАБОТЫ
Загрузка данных

На этом этапе был выполнен первичный осмотр данных и проверена корректность загрузки таблицы.
Первичный анализ и структура данных
Были выявлены:
пропущенные значения в некоторых колонках (например, голы в отдельных матчах или информация о лиге);
числовые и категориальные признаки различия в масштабах данных: например, разница между количеством голов в матчах и сезонными результатами команд;
структура данных позволяет выполнять группировки по сезонам, лигам и командам для анализа трендов и распределений;
типовые проблемы качества данных: потенциальные пропущенные или некорректные значения для некоторых матчей, которые необходимо учитывать при анализе
Очистка и обработка данных
Были проведены следующие шаги по подготовке данных:
преобразованы типы данных: числовые колонки FT Team 1 и FT Team 2 приведены к числовому формату, а Year — к строковому;
удалены строки с пропущенными значениями в колонках голов, чтобы избежать ошибок при анализе;
созданы новые признаки:
ИЗУЧАЮЩИЙ И ОБОБЩАЮЩИЙ ФОРМАТ ВИЗУАЛИЗАЦИИ
В проекте визуализации построены так, чтобы не просто показывать графики, а помогать изучать закономерности и объяснять их смысл, например:
линейные и столбчатые графики (среднее количество голов по странам, топ-20 команд по домашним победам) позволяют увидеть тренды и лидеров, а не просто значения;
гистограмма разницы голов показывает распределение результатов матчей, позволяя понять, насколько часто команды выигрывают с большим или малым преимуществом.
СТАТИСТИЧЕСКИЕ МЕТОДЫ
Для анализа данных применялись стандартные методы описательной статистики: Среднее значение (mean) — для оценки средней результативности команд в матчах дома и в гостях, по странам и командам. Гистограммы и ящик с усами — для визуального анализа распределения голов и выявления выбросов и разброса данных. Подсчет побед (value_counts) — для определения топовых команд по количеству домашних побед. Корреляция (corr) — для изучения взаимосвязи голов дома и в гостях. Линейные и столбчатые графики — для выявления трендов и динамики показателей по странам и командам
СТИЛИЗАЦИЯ ВИЗУАЛИЗАЦИЙ
Общий стиль: минимализм; редакционная инфографика в газетном духе; спокойные, приглушённые цвета; акцент на структуре данных, трендах и закономерностях.
Цветовая палитра
Типографика: единый гротеск: DejaVu Sans / Inter / Source Sans; чёткая иерархия заголовков и подписей; минимум визуального шума: без лишних сеток, 3D-эффектов или ярких градиентов.
ИТОГОВЫЕ ГРАФИКИ
ИСПОЛЬЗОВАНИЕ НЕЙРОСЕТЕЙ
В процессе работы использовалась генеративная модель ChatGPT (OpenAI).
ИИ применялся для: помощи в структурировании проекта; формулировки концепции и аналитических выводов; уточнения формулировок и логики объяснений; поддержки при описании статистических методов.
Примеры промптов: «Помоги описать статистические методы простым языком» «Как объяснить визуализацию разницы годов для широкой аудитории»
ИИ не использовался для автоматического анализа данных или генерации графиков.
ИТОГОВЫЙ БЛОКНОТ И ДАТАСЕТ
По ссылке доступным блокнот с кодом, а также датасет, на котором основывался анализ.
Вывод
Анализ данных матчей пяти крупнейших европейских футбольных лиг показал ключевые закономерности результативности команд:
среднее количество голов различается по странам и лигам, отражая особенности стилей игры;
домашние команды чаще побеждают, что подтверждает эффект «домашнего поля»;
распределение разницы голов и корреляция домашних и гостевых голов помогают выявить стратегии команд и оценить вариативность результатов.
Визуализация данных в минималистичном и редакционном стиле позволяет наглядно изучать тенденции и объяснять закономерности, делая анализ понятным и доступным для аудитории