Original size 615x803

Эволюция и ландшафтная индустрия видеоигр

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Для этого анализа я выбрала набор «Продажи видеоигр» на платформе Kaggle. Это один из самых популярных наборов данных. Он содержит информацию о продажах более 16 500 видеоигр, выпущенных с 1980 по 2020 год.

Набор данных представляет собой CSV-файл с учетом столбцов: Rank- Ранг по продажам Name- Название игры Platform- Платформа (например, PS4, ПК, Wii) Year- Год выпуска Genre- Жанр игры Publisher- Издатель NA_Sales- Продажи в Северной Америке (в миллионах) EU_Sales- Продажи в Европе (в миллионах) JP_Sales- Продажи в Японии (в миллионах) Other_Sales- Продажи во всем мире (в миллионах) Global_Sales- Общие мировые смерти (в миллионах)

Видеоигровая индустрия — это огромный культурный и экономический феномен. Анализ этих данных позволяет не просто посмотреть цифры, а историю:

Технологические изменения: как менялись платформы от Atari до PlayStation 5. Культурные тенденции: какие жанры были популярны в разные эпохи и в разных регионах. Бизнес-аналитика: кто является «королем» отрасли среди издателей и какая стратегия ведет к успеху. Ценность этих данных в том, что они позволяют проследить, как технологический прогресс и изменение вкусов потребляют многомиллиардный рынок.

Я выбрала 4 разных типа графиков, чтобы решать разные вопросы и различать варианты визуализации: Линейный график (линейный график): идеален для идентификации динамиков во времени. Я использую его, чтобы показать, как менялось количество выпускаемых игр. Горизонтальная столбчатая диаграмма (горизонтальная гистограмма): Отлично подходит для сравнения категорий. Я показываю самые прибыльные жанры игр.

Сложенная столбчатая диаграмма (столбиковая диаграмма): измеряет не только общие значения, но и их составляющие. Я использую ее для анализа вкладов разных регионов (Америка, Европа, Япония). Диаграмма рассеяния (диаграмма рассеяния): используется для выявления взаимосвязей между двумя числами переменных. Я проверю, существует ли корреляция между мировыми продажами игры и ее названием.

1. Обработка данных Прежде чем создавать графики, данные необходимо подготовить: загрузить, применить и привести к нужному формату.

Шаг 1: Загрузка и первичный осмотр Сначала импортируем библиотеки и загружаем данные. Затем смотрим наличие основной информации и проверяем пропуски.

Original size 700x327

Шаг 2: Очистка данных пропусков, хотя и немного по сравнению с общим определением данных (271 для Year из 16598), самым простым методом будет удалена строка с пропусками.

Original size 602x265

2. Стилизация графиков Для создания инфографики я решила использовать темный стиль, вдохновленный интерфейсами современных приложений. Это помогает выделить яркие цвета данных. Источник вдохновения: Дашборды на сайтах типа Dribbble и журналистика данных из изданий The Pudding и т. п. Цветовая палитра: я выбрала палитру viridis из matplotlib, так как она хорошо читается на темном фоне и приятна для глаз. Шрифт и элементы: используемый стандартный шрифт без засечек, убраны лишние рамки (верхняя и правая), добавлена ​​сетка для лучшего считывания результатов по оси Y. Заголовки сделаны крупными и информативными, часто с подзаголовком, объясняющими суть графики. Вот код для применения базового стиля ко всем графикам:

Original size 506x245

3. Изучающий формат: это этап, когда мы задаем вопросы данным. Например, при построении диаграмм рассеяния я не знаю заранее, есть ли связь между четвертым названием и продажами. Я строю график, чтобы рассмотреть эту гипотезу. Код на этом этапе может быть простым: plt.scatter (x, y). Объясняющий (пояснительный) формат: Это окончательный результат, который мы показываем. Здесь цель — рассказ истории. Я беру сырой изучающий график и добавляю к нему: Четкий заголовок и подзаголовок: «Связь продаж и длина названия: Краткость — сестра таланта?. Аннотации: выделяю интересные точки или тенденции. Цветовое кодирование: использую цвет, чтобы привлечь внимание к ключевой информации. Удаление лишнего

4. Описание различных методов. В этом анализе использовались методы: Описательная статистика: я использую функцию .sum ()для подсчета общих продаж, .count () (или .value_counts ()) для подсчета количества игр по годам или жанрам. Метод .describe ()дает полное представление числовых данных (среднее, медиана, стандартное отклонение и т. д.). Группировка и агрегация: это ключевая метод, функция тренда в Pandas с помощью .groupby (). Я группирую данные по Year, Genrеили Platform, а затем применяю к этим группам агрегирующие функции (sum, count) для получения итоговых результатов. Сортировка: метод .sort_values (), используемый для ранжирования данных, например, для поиска самых продаваемых жанров или платформ.

График 1: Линейный график — игровая индустрия «Золотой век» Этот график показывает количество игр, выпускаемых каждый год. Мы видим явный пик в альбоме 2008–2009 годов, после которого наступил спад. Это может быть связано с мировым кризисом и сменой названий консолей.

Original size 653x587

График 2: Горизонтальная столбчатая диаграмма — Какие жанры носят больше всего денег? Здесь мы видим, какие жанры доминируют в мировых продажах. «Экшен» (Экшен) с отрывом от выступления лидирует, что говорит о его популярности. На втором месте «Спорт» (Sport), что также ожидаемо из-за ежегодных сериалов типа FIFA и NBA.

Original size 557x658

График 3: Сложенная столбчатая диаграмма — Региональные рынки для платформы топ-5 Этот график показывает не только общие продажи для 5 самых успешных платформ всех времен, но и то, как эти продажи меняются по трем ключевым регионам. Мы наблюдаем культурные различия: доминирование Японии в Nintendo и сильные позиции PlayStation и Xbox в Северной Америке и Европе.

Original size 615x618

График 4: Диаграмма рассеяния — Влияет ли продолжительность названия на продажу? Это исследовательский график. Гипотеза: возможно, короткие и запоминающиеся названия протекают лучше. График показывает каждую игру как точку. По оси Y — ее продажа, по оси X — количество символов в названии.

Вывод: явной закономерности не наблюдается. Есть супер-успешные игры, как с короткими, так и с длинными названиями. Это говорит о том, что качество и маркетинг игры гораздо важнее, чем продолжительность ее имени.

Original size 546x660