Original size 482x650

Анализ результатов футбольных матчей Большой Пятёрки

PROTECT STATUS: not protected
The project is taking part in the competition

КОНЦЕПЦИЯ

Футбол — один из самых популярных видов спорта в мире, который в последнее время привлёк и моё внимание. Именно поэтому я решила создать проект о лигах Большой пятёрки.

Для проекта был выбран датасет Big Five European Football Leagues Results (1995–2019) с сайта, включающий результаты матчей пяти крупнейших европейских чемпионатов: Англии, Германии, Италии, Испании и Франции. Датасет содержит информацию о командах, количестве забитых голов дома и в гостях, сезонах, результатах матчей и разнице голов.

Основным фокусом анализа стали показатели результативности команд и динамика голов по сезонам. Такой подход позволяет выявить статистические закономерности, связанные с домашними победами, разницей голов, а также сравнивать различные лиги и команды между собой. Анализ даёт возможность наглядно продемонстрировать тенденции, выявить лидеров и слабые стороны, а также визуализировать динамику футбольных событий на протяжении почти 25 лет.

ВЫБРАННЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ

Для визуализации данных я выбрала графики, показывающие ключевые аспекты футбольных матчей: Линейный график среднего количества голов дома и в гостях — демонстрирует динамику результативности команд в зависимости от места. Гистограмма разницы голов — показывает частоту побед с разным преимуществом и разброс результатов. Столбчатая диаграмма топ‑20 команд по домашним победам — выявляет лидеров и наглядно сравнивает успехи команд. Ящик с усами распределения голов по лигам — сравнивает показатели разных чемпионатов и показывает разброс голов. Точечная диаграмма домашних и гостевых голов — иллюстрирует зависимость результативности команды дома и в гостях.

ЭТАПЫ РАБОТЫ

Загрузка данных

big
Original size 376x189

На этом этапе был выполнен первичный осмотр данных и проверена корректность загрузки таблицы.

Первичный анализ и структура данных

Original size 279x149

Были выявлены:

пропущенные значения в некоторых колонках (например, голы в отдельных матчах или информация о лиге);

числовые и категориальные признаки различия в масштабах данных: например, разница между количеством голов в матчах и сезонными результатами команд;

структура данных позволяет выполнять группировки по сезонам, лигам и командам для анализа трендов и распределений;

типовые проблемы качества данных: потенциальные пропущенные или некорректные значения для некоторых матчей, которые необходимо учитывать при анализе

Очистка и обработка данных

Original size 694x285

Были проведены следующие шаги по подготовке данных:

преобразованы типы данных: числовые колонки FT Team 1 и FT Team 2 приведены к числовому формату, а Year — к строковому;

удалены строки с пропущенными значениями в колонках голов, чтобы избежать ошибок при анализе;

созданы новые признаки:

  • goal_diff — разница голов (домашние — гостевые),
  • home_win — бинарный признак победы домашней команды.

ИЗУЧАЮЩИЙ И ОБОБЩАЮЩИЙ ФОРМАТ ВИЗУАЛИЗАЦИИ

В проекте визуализации построены так, чтобы не просто показывать графики, а помогать изучать закономерности и объяснять их смысл, например:

линейные и столбчатые графики (среднее количество голов по странам, топ-20 команд по домашним победам) позволяют увидеть тренды и лидеров, а не просто значения;

гистограмма разницы голов показывает распределение результатов матчей, позволяя понять, насколько часто команды выигрывают с большим или малым преимуществом.

СТАТИСТИЧЕСКИЕ МЕТОДЫ

Для анализа данных применялись стандартные методы описательной статистики: Среднее значение (mean) — для оценки средней результативности команд в матчах дома и в гостях, по странам и командам. Гистограммы и ящик с усами — для визуального анализа распределения голов и выявления выбросов и разброса данных. Подсчет побед (value_counts) — для определения топовых команд по количеству домашних побед. Корреляция (corr) — для изучения взаимосвязи голов дома и в гостях. Линейные и столбчатые графики — для выявления трендов и динамики показателей по странам и командам

СТИЛИЗАЦИЯ ВИЗУАЛИЗАЦИЙ

Общий стиль: минимализм; редакционная инфографика в газетном духе; спокойные, приглушённые цвета; акцент на структуре данных, трендах и закономерностях.

Original size 1063x575

Цветовая палитра

Типографика: единый гротеск: DejaVu Sans / Inter / Source Sans; чёткая иерархия заголовков и подписей; минимум визуального шума: без лишних сеток, 3D-эффектов или ярких градиентов.

ИТОГОВЫЕ ГРАФИКИ

Original size 846x565
Original size 841x548
Original size 999x548
Original size 833x565
Original size 846x548

ИСПОЛЬЗОВАНИЕ НЕЙРОСЕТЕЙ

В процессе работы использовалась генеративная модель ChatGPT (OpenAI).

ИИ применялся для: помощи в структурировании проекта; формулировки концепции и аналитических выводов; уточнения формулировок и логики объяснений; поддержки при описании статистических методов.

Примеры промптов: «Помоги описать статистические методы простым языком» «Как объяснить визуализацию разницы годов для широкой аудитории»

ИИ не использовался для автоматического анализа данных или генерации графиков.

ИТОГОВЫЙ БЛОКНОТ И ДАТАСЕТ

По ссылке доступным блокнот с кодом, а также датасет, на котором основывался анализ.

Вывод

Анализ данных матчей пяти крупнейших европейских футбольных лиг показал ключевые закономерности результативности команд:

среднее количество голов различается по странам и лигам, отражая особенности стилей игры;

домашние команды чаще побеждают, что подтверждает эффект «домашнего поля»;

распределение разницы голов и корреляция домашних и гостевых голов помогают выявить стратегии команд и оценить вариативность результатов.

Визуализация данных в минималистичном и редакционном стиле позволяет наглядно изучать тенденции и объяснять закономерности, делая анализ понятным и доступным для аудитории