Original size 1024x1536

Гарри Поттер как культурный феномен

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

big
Original size 3000x1688

Я решила проанализировать данные о франшизе «Гарри Поттер», полученные с помощью Open Library, открытого библиотечного проекта Internet Archive. Датасет включает сведения о книгах, связанных с франшизой, такие как название, авторы, год первой публикации, а также информация о языках издания. В анализ были включены как основные книги серии Дж. К. Роулинг, так и сопутствующие публикации, расширяющие вселенную франшизы.

Данные, связанные с франшизой «Гарри Поттер», представляют для меня интерес с точки зрения взгляда на то, как одно литературное произведение со временем превращается в масштабный культурный и медиа-феномен. Эта тема также имеет для меня личную значимость, потому что книги и фильмы о Гарри Поттере с детства стали для меня очень важными и мне захотелось взглянуть на знакомую историю с аналитической точки зрения.

База данных

Для анализа и визуализации данных использовались библиотеки Pandas, Matplotlib и NumPy. Данные были получены из Open Library Search API и приведены к табличному формату (CSV) для дальнейшей обработки и анализа в среде Python.

Структура данных (колонки): title — название книги author_name — автор или список авторов книги first_publish_year — год первой публикации книги language — список языков, на которые была издана книга num_languages — количество языков издания (производный числовой признак, рассчитанный на основе поля language) is_rowling — логический признак, указывающий, относится ли книга к основной серии Дж. К. Роулинг decade — десятилетие первой публикации книги (вычислено на основе года публикации)

Визуализация

Для визуального оформления проекта была выбрана единая цветовая палитра и типографика, вдохновлённая эстетикой вселенной «Гарри Поттера». Насыщенный холодный голубой цвет (307CAE) использован в качестве фона, тёмно-синий (193757) — для текста и графических элементов, золотисто-жёлтый (D9A521) как акцентный цвет данных, светло-голубой (6FA3C8) — для сетки. В качестве основного шрифта использован DejaVu Serif, отсылающий к формату оригинальных книг франшизы.

Original size 3490x755

цвета

Original size 3490x754

шрифт

Используемые виды графиков: 1. Линейный график (Line chart) 2. Гистограмма (Histogram) 3. Столбчатая диаграмма (Bar chart) 4. Сложенная столбчатая диаграмма (Stacked bar chart) 5. Точечная диаграмма (Scatter plot) 6. Круговая диаграмма (Pie chart) 7. Площадная диаграмма (Area chart) 8. Горизонтальная точечная диаграмма (Lollipop chart)

Анализ данных

Работа над проектом началась с подготовки рабочей среды и подключения библиотек, необходимых для анализа табличных данных, выполнения вычислений и построения визуализаций.

Далее данные были получены с помощью Open Library Search API по тематическому запросу, связанному с франшизой «Гарри Поттер». Ответ API в формате JSON был загружен и преобразован в структуру данных, пригодную для анализа.

Основной массив данных был извлечён из поля docs и преобразован в табличный формат Pandas DataFrame.

После формирования таблицы был выполнен отбор релевантных колонок, которые используются в дальнейшем анализе:

Затем был проведён первичный анализ структуры данных для оценки количества записей, типов данных и наличия пропусков.

Original size 3491x1294

Линейный график динамики публикаций

Original size 848x477
Original size 3491x1293

Линейный график отображает динамику количества публикаций, связанных с франшизой «Гарри Поттер», по годам. По оси X представлен год публикации, а по оси Y — количество книг, выпущенных в соответствующем году.

График показывает, что наибольшая активность публикаций приходится на начало 2000-х годов и период около 2020–2021 годов. Эти пики могут быть связаны как с выходом ключевых книг основной серии, так и с ростом интереса к франшизе, сопровождающимся выпуском сопутствующих изданий, переизданий и тематических публикаций. В промежуточные периоды наблюдаются спады, что указывает на неравномерный характер издательской активности.

Горизонтальная столбчатая диаграмма количества языков перевода книг

Original size 1161x477
Original size 3491x1224

Горизонтальная столбчатая диаграмма показывает 10 книг франшизы «Гарри Поттер» с наибольшим количеством языков перевода. Наиболее широко переведённой книгой является Harry Potter and the Philosopher’s Stone, что подчёркивает её ключевую роль в международном успехе серии. В целом график демонстрирует неравномерность международного распространения книг и лидерство ранних частей основной серии.

Сложенная столбчатая диаграмма структуры франшизы по десятилетиям

Original size 848x477
Original size 3491x2143

Сложенная столбчатая диаграмма показывает соотношение книг основной серии Дж. К. Роулинг и сопутствующих публикаций во франшизе «Гарри Поттер» по десятилетиям. График демонстрирует, что наибольшее количество книг приходится на сопутствующие издания, особенно в 2000-х, 2010-х и 2020-х годах, тогда как основная серия представлена ограниченным числом публикаций. Такая структура отражает трансформацию франшизы от литературной серии к масштабному культурному и издательскому феномену.

Площадная диаграмма роста франшизы во времени

Original size 859x477
Original size 3491x1619

Площадная диаграмма отражает накопительный рост количества книг, связанных с франшизой «Гарри Поттер», по годам. График показывает устойчивое увеличение общего числа публикаций, особенно заметное в начале 2000-х и после 2015 года. Такой формат визуализации подчёркивает долгосрочный характер развития франшизы и демонстрирует, как с течением времени она расширялась за счёт как основной серии, так и сопутствующих изданий.

Тепловая карта издательской активности франшизы по годам и десятилетиям

Original size 826x503
Original size 3491x1619

Тепловая карта отображает интенсивность публикаций, связанных с франшизой «Гарри Поттер», в разрезе годов и десятилетий. Цветовая насыщенность отражает количество книг, опубликованных в соответствующий период. График наглядно демонстрирует пики издательской активности в начале 2000-х годов, а также заметный рост публикаций в 2010-х и 2020-х годах. Такой формат визуализации позволяет выявить временные кластеры активности и проследить эволюцию франшизы во времени.

Горизонтальная точечная диаграмма ранних публикаций во франшизе

Original size 1185x477
Original size 3491x1619

Горизонтальная точечная диаграмма (lollipop chart) отображает самые ранние публикации, связанные с франшизой «Гарри Поттер», и годы их выхода. Такой формат позволяет наглядно сравнить даты публикации отдельных книг и акцентировать начальный этап формирования франшизы. График подчёркивает концентрацию первых изданий в конце 1990-х годов.

Точечная диаграмма зависимости количества языков перевода от года публикации

Original size 848x477
Original size 3490x3268

Точечная диаграмма показывает взаимосвязь между годом публикации книги и количеством языков, на которые она была переведена. Цветовое разделение позволяет сравнить книги основной серии Дж. К. Роулинг и сопутствующие издания. График демонстрирует, что наибольшее международное распространение характерно для ранних книг основной серии, тогда как большинство поздних публикаций имеют ограниченное количество переводов.

Круговая диаграмма структуры франшизы

Original size 538x428
Original size 3491x2441

Круговая диаграмма отражает соотношение книг основной серии Дж. К. Роулинг и сопутствующих публикаций во франшизе «Гарри Поттер». График показывает, что основная серия составляет меньшую долю от общего количества изданий, тогда как значительную часть корпуса представляют книги, расширяющие и интерпретирующие вселенную франшизы.

Заключение

В рамках проекта были проанализированы данные, связанные с франшизой «Гарри Поттер», с использованием инструментов анализа данных и визуализации в Python. Работа с открытым датасетом позволила изучить, как франшиза развивалась во времени, из каких типов изданий она состоит и как менялось её международное распространение. Построенные графики помогли наглядно показать основные закономерности и лучше понять структуру данных. В результате проект продемонстрировал, как методы анализа данных могут быть применены для изучения культурных и литературных тем.

Описание применения генеративной модели

В процессе работы над проектом использовалась генеративная модель ChatGPT-4 для создания обложки, а также помощи в реализации более сложных и нестандартных визуализаций, таких как тепловая карта и круговая диаграмма в формате Pac-Man. С её помощью удалось определить, какие библиотеки и методы Python подходят для создания подобных графиков, а также уточнить логику их построения и стилизации.