Original size 1140x1600

Вкус зимы: анализ новогодних продуктов и напитков

The project is taking part in the competition

Описание проекта

Набор данных «Зимние продукты и напитки» представляет собой не просто коллекцию кулинарных позиций, а целостный статистический срез потребительских предпочтений в холодное зимнее время. За каждым блюдом и его ингредиентами скрывается история выбора, комфорта и адаптации человека к сезону, в котором еда и напитки приобретают особое значение.

Актуальность исследования особенно возрастает в преддверии зимнего сезона и новогодних праздников — периода, когда гастрономические привычки становятся более выраженными, а традиции и спрос формулируют устойчивые паттерны человеческого поведения. Зима меняет не только климатические условия, но и структуру потребления, например, более предпочтительными становятся согревающие напитки, калорийные блюда и продукты, создающие ощущение уюта и праздника.

Анализ датасета позволяет проследить, как разные культуры отвечают на вызовы холодного времени года. Европа, Северная Америка и Азия по-разному интерпретируют зимний рацион, сочетая традиции, локальные вкусы и современные тренды. Каждая запись в массиве данных — отражение повседневного выбора человека в зимний период, будь то чашка горячего напитка, праздничное блюдо или иные сезонные продукты, востребованные именно зимой.

Изучение данных накануне Нового года дает возможность увидеть не только текущее состояние рынка, но и его динамику: какие продукты сохраняют за собой статус зимней классики, какие только набирают популярность, а какие постепенно уступают место новым тенденциям. В данном контексте изученный датасет становится инструментом для расшифровки «кода зимнего уюта», где цены, калорийность блюд и потребительские оценки складываются в сезонный нарратив.

В качестве анализируемого материала мною был выбран датасет «Зимние Продукты Питания И Напитки» с сайта Kaggle.

В ходе анализа датасета я посчитала подходящими следующие виды графиков, поскольку нашла их наиболее релевантными и наглядными для визуализации данных:

Столбчатая диаграмма Линейный график Тепловая карта Пузырьковая диаграмма Матрица корреляций (Тепловая карта корреляций) Диаграмма рассеяния Круговая диаграмма

Предварительная подготовка — комплекс действий для корректной работы с датасетом

Изначально я начала работу с предоставленным набором данных, однако при первичном анализе обнаружила несколько проблем, характерных для реальных данных, например, наличие полных дубликатов записей, пропущенные значения в числовых полях, а также англоязычные названия, которые затрудняли бы анализ и визуализацию для русскоязычной аудитории.

Для обеспечения качества и ясности последующего анализа был выполнен комплекс подготовительных шагов:

I. Для начала мною были удалены дубликаты: были выявлены и удалены полностью идентичные строки, чтобы каждая запись в датасете стала уникальной. Это предотвратило смещение статистики из-за повторяющихся наблюдений.

Original size 936x330

II. Создание словарей перевода: для адаптации данных ключевые категориальные столбцы (Item, Type, Origin) были переведены на русский язык. Для этого были вручную созданы и применены тематические словари. С помощью метода .map () в библиотеке Pandas значения в исходных столбцах были заменены на русскоязычные согласно соответствующим словарям. Чтобы сохранить целостность данных, для значений, отсутствующих в словарях, был использован метод .fillna (), оставляющий оригинальное название. Результаты были сохранены в новых столбцах с суффиксом _ru. Для данного пункта я использовала нейросеть DeepSeek, чтобы корректно написать код и внести необходимые значения.

Original size 936x1142

Далее я создала таблицу для ручного исправления типов, в целях более точного анализа данных:

0

На выходе был получен очищенный, непротиворечивый и полностью переведённый на русский язык датасет, готовый к глубокому анализу и построению информативных визуализаций. Этот фундаментальный этап обеспечил достоверность всех последующих выводов.

Поиск стилистического решения и проверка визуального оформления

Перед тем как приступить к созданию финальных графиков, было необходимо определить их будущий стиль. Для этого я сознательно подошла к выбору визуального языка, который соответствовал бы тематике датасета — уютным и согревающим зимним продуктам.

Выбор и загрузка шрифта: чтобы обеспечить уникальность и стилевую целостность проекта, в качестве основного был выбран современный гротескный шрифт Aeroport. Он был загружен в среду выполнения, корректно установлен в систему Matplotlib и назначен шрифтом по умолчанию для всех надписей, что гарантировало единообразие текстовых элементов на всех графиках.

На данном этапе я столкнулась с ошибкой при загрузке шрифта Aeroport в Google Colab. Сначала я пыталась кодом установить с помощью нейросети deepseek, однако столкнулась с проблемой. Поэтому загрузила шрифты файлами, чтобы сохранить выбранную стилевую основу, и с помощью той же нейросети задала их в стиль будущих графиков. В оформлении использовалась палитра также вдохновлённая визуальными образами зимней кухни. Тёплые оттенки ассоциируются с горячими блюдами, выпечкой и пряностями, а холодные и нейтральные — с зимней атмосферой и визуальным балансом. Так, цвет E2DFD5 — к молочным продуктам и сливочным десертам, A8B7BD, напоминающие зимний воздух, 455A6C, использованный для фона и подписей.

Эти цвета были систематизированы в словарь STYLE_COLORS и использованы для оформления всех элементов: заливки столбцов, линий, текста, фона и сетки.

Original size 4067x935

Цветовая палитра

Original size 4067x935

Цветовая палитра

Проверка и настройка отображения: перед построением графиков была проведена тестовая визуализация — на холст выводились пробные текстовые блоки на русском языке с использованием выбранного шрифта и цветов. Это позволило:

Убедиться в корректной поддержке шрифтом кириллицы. Оценить читаемость и гармоничность сочетания цветов текста и фона.

Original size 768x940

Этот подготовительный этап позволил создать визуальный каркас для данных. Проведённая проверка гарантировала, что итоговые графики будут не только информативными, но и эстетически целостными, образуя связную визуальную историю о зимних кулинарных предпочтениях.

Итоговые графики

Чтобы расширить свои представления о возможных итоговых графиках, я спросила у ChatGPT, какие взаимосвязи между данными было бы интересно изучить, имея датасет. Некоторые из предложенных нейросетью альтернатив вошли в финальный проект.

Original size 1118x556

График 1. ТОП-10 САМЫХ ПОПУЛЯРНЫХ ТОВАРОВ С ИЗОБРАЖЕНИЯМИ

Благодаря столбчатой диаграмме, можно сразу увидеть, какие товары нравятся людям больше всего и в какой стране они лидируют. ля усиления наглядности и мгновенного визуального восприятия каждый товар в рейтинге сопровождается фотографией, что превращает сухой рейтинг в яркую и аппетитную галерею зимних предложений.

Например, кофе жители Швейцарии оценили выше, чем тот же продукт, но в США. А горячий сидр входит в ТОП-3 сразу в двух странах. Устойчивая популярность «Горячего сидра» становится любопытным наблюдением, который представлен в рейтинге в нескольких вариантах из разных стран. Это свидетельствует о его статусе международного зимнего фаворита, успешно адаптируемого под региональные вкусы.

0

График 2. ДИНАМИКА ПОКАЗАТЕЛЕЙ ПО СЕЗОНАМ

На данном графике мы можем проследить как менялась средняя цена и популярность согревающих продуктов в течении трех лет. Здесь мы видим рост цен и падение спроса, но популярность снижается не пропорционально росту цен, а значит не все люди отказываются от любимых продуктов из-за роста цены.

Линейный график с двумя линиями тренда на общих осях позволяет напрямую сравнивать динамику цены и популярности. Разные маркеры (круги для цены, квадраты для популярности) и цвета из STYLE_COLORS улучшают читаемость.

Очевидно прослеживается постепенный рост средней цены на продукты, который достиг своего пика в сезоне 2025. Это может отражать общемировые инфляционные процессы, а также возможное смещение потребительского спроса в сторону более премиальных и специализированных зимних товаров.

Любопытным наблюдением становится устойчивая стабильность показателя популярности на протяжении всех трех сезонов, что свидетельствует о консервативности зимних потребительских привычек. Несмотря на колебания цен и изменения в ассортименте, общее удовлетворение потребителей остается на стабильно высоком уровне.

Original size 1430x763
Original size 936x736

График 3. ГЕОАНАЛИЗ: 4 ГРАФИКА О СТРАНАХ

Original size 1430x495

Представленная серия из четырёх взаимодополняющих графиков создаёт многомерный портрет глобального зимнего рынка, раскрывая не просто рейтинги, а сложную географию вкусов, цен и потребительских предпочтений. Каждый график — это отдельный взгляд на одну и ту же мозаику данных, и вместе они образуют целостную аналитическую панораму.

I. Топ-10 стран по популярности

Вывод: На данном графике мы видим среднюю оценку популярности новогодних продуктов в разрезе стран. И можем сделать вывод, что в США горячие напитки пользуются большей популярностью, чем в Германии Левый верхний график вскрывает культурную геометрию популярности, демонстрируя, что лидерство принадлежит не самым крупным или известным кулинарным державам, а тем, кто смог предложить идеальную формулу зимнего продукта. Страна-лидер становится не просто точкой на карте, а эталоном сезонного успеха, чей опыт кристаллизует ожидания потребителей по всему миру.

II. Топ-10 стран по количеству товаров

Вывод: По графику мы можем сделать вывод, что в Японии и Италии больше всего разновидностей горячих напитков, а в Германии меньше всего. Правый верхний график о количестве товаров добавляет к анализу измерение рыночного разнообразия. Становится видна разница между странами-витринами, предлагающими максимальный выбор, и странами-концентраторами, фокусирующимися на ограниченном числе хитов. Это противоречие между широтой ассортимента и силой отдельных брендов формирует основное напряжение рыночной географии.

Original size 1430x501

III. Тепловая карта «Страны × Типы»

Тепловая карта внизу слева проводит тонкую диагностику ценовых ниш по странам и типам продуктов. Она выявляет неочевидные закономерности: например, как определённая категория товаров может быть демократичной в одной стране и премиальной — в другой. Эти цветовые паттерны раскрывают скрытую логику ценообразования, где культурный статус продукта зачастую важнее его объективных характеристик. Вывод: по данной диаграмме мы можем сделать вывод о ценовой политике в каждой стране на определенный тип товаров. Например, во Франции самые дорогие супы, а вот напитки они продают по усредненной цене со всем миром. А Индия устанавливает минимальную цену на супы, но цены на напитки ближе к лидерам.

IV. Пузырьковая диаграмма «Цена vs Популярность»

Пузырьковая диаграмма в правом нижнем углу ставит под сомнение базовую аксиому о связи цены и популярности. Большинство стран группируется в центральном кластере, опровергая прямую зависимость — самые дорогие предложения не гарантируют высшей популярности, а самые доступные не всегда становятся хитами. Истинная ценность, которую ищет потребитель зимой, оказывается более сложной категорией, находящейся на пересечении цены, традиции и воспринимаемого качества. Вывод: Три типа стран: • Дорогие и популярные товары (правый верхний угол) — США, Канада • Недорогие, но любимые покупателями (левый верхний угол) — Швейцария • Нишевые (центр): не самые дешёвые и не самые популярные, но со своей аудиторией — Китай, Италия

Original size 936x502

Таким образом, геоанализ превращает страны из пассивных меток происхождения в активных участников глобального зимнего диалога. Каждая нация вносит свой акцент в общую симфонию зимнего потребления: одни задают стандарты популярности, другие — разнообразия, третьи мастерски балансируют в ценовых нишах. Вместе они создают ту самую «карту зимнего комфорта», где долгота и широта определяются не координатами, а пересечениями цены, спроса и культурной идентичности.

0

График 4. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Перед нами особая форма визуализации — тепловая карта корреляций (heatmap), математический инструмент, преобразованный в диаграмму. Её назначение — выявить и измерить невидимые нити, связывающие различные измерения данных в единую систему. Это не просто график, а диагностическая карта, на которой сила и направление взаимосвязей между переменными (ценой, калорийностью, рейтингом, популярностью) кодируются интенсивностью и оттенком цвета.

Данный график подсказал мне сделать чат-GPT и помог его реализовать.

Original size 1347x586

Квадраты диаграммы, выстроенные в строгую симметричную матрицу, напоминают зеркальный зал данных, где каждый показатель смотрит на другой, измеряя степень их согласованности. Ярко-тёплые тона (в нашей палитре — оттенки акцентного цвета 925915) выявляют сильные положительные связи, когда рост одного показателя сопровождает рост другого. Холодные тона (оттенки A8B7BD) сигнализируют об обратных, негативных связях. Области нейтрального цвета обнажают независимость, острова статистического безразличия, где переменные живут своей отдельной жизнью.

Любопытным и наиболее значимым на этой карте часто оказывается квадрат взаимодействия цены и популярности (Price (USD) ↔ Popularity_Score). Его цветовой код становится ключом к пониманию базовой потребительской логики. Сильная положительная связь (тёплый квадрат) означала бы, что рынок следует премиум-пути, где дороговизна сама по себе становится атрибутом желательности. Слабая или обратная связь (нейтральный или холодный квадрат) рисует иную картину: зимний комфорт демократичен, его суть — в доступном уюте, а не в статусной демонстрации. Эта единственная ячейка способна опровергнуть или подтвердить целые маркетинговые стратегии.

Диагональ ярких единиц, пересекающая карту из одного угла в другой, — это важное напоминание, что каждый показатель идеально коррелирует сам с собой. Оно служит точкой отсчёта, от которой мы измеряем силу всех остальных, более призрачных связей.

Таким образом, матрица корреляций не показывает сами товары или страны, а обнажает абстрактные силы, которые ими управляют: силу привычки, логику ценообразования, иррациональность предпочтений. Расшифровав эту цветовую карту скрытых взаимозависимостей, мы перестаём просто видеть цифры и начинаем читать скрытый контекст зимнего рынка — историю о том, какие качества на самом деле ценятся в холодное время года и как эти ценности сплетаются в невидимую, но прочную сеть причин и следствий.

0

График 5. КРУГОВАЯ ДИАГРАММА РАСПРЕДЕЛЕНИЯ ТОВАРОВ ПО СТРАНАМ

Исходные данные содержали информацию о происхождении товаров, однако простой перечень стран не позволял оценить их вес в общем ассортименте. Я решила создать наглядный рейтинг географического распределения, который бы визуализировал доли участия разных стран на зимнем рынке продуктов и напитков.

Для обеспечения информативности и читаемости визуализации была применена методика группировки малых долей: все страны, представленные менее чем 5 товарами, были объединены в категорию «Другие». Этот подход позволил избежать «зашумленности» диаграммы и сфокусироваться на ключевых игроках.

В результате анализа был выявлен неожиданный лидер — страна, доля которой в общем ассортименте оказалась значительно выше, чем можно было предположить исходя из её гастрономического имиджа. Её доля, выделенная тёплым акцентным цветом, визуально доминирует на диаграмме, что указывает на её роль как ключевого поставщика зимних товаров.

На диаграмме видно на сколько обширен ассортимент в разных странах. Из этого можно сделать вывод, что в Японии подобрать на свой вкус согревающий напиток гораздо проще, чем в Германии.

Original size 1430x1090
Original size 936x892

График 6. СТОЛБЧАТАЯ ДИАГРАММА — СРАВНЕНИЕ ПОКАЗАТЕЛЕЙ ПО ТИПАМ ТОВАРОВ

Первичный анализ данных выявил наличие трёх ключевых категорий товаров — напитки и супы. Однако простое сравнение средних значений по каждой категории в отдельности не позволяло увидеть системные взаимосвязи между различными параметрами. Я решила создать комплексную визуализацию, которая бы в одной плоскости совместила сравнение четырёх критически важных метрик: средней цены, средней популярности, количества товаров и их калорийности.

В своём анализе я использовала метод парного сопоставления на общих осях, разместив на двухуровневой диаграмме два независимых, но концептуально связанных сравнения. Для технической реализации потребовалось создать двойную систему осей (twin axes) на каждом графике, что позволило совместить показатели с разными единицами измерения и масштабами без потери информативности.

Этот график — инструмент для категорийного менеджмента. Он помогает принимать решения о расширении/сокращении ассортимента определенных типов товаров, их позиционировании (премиум vs масс-маркет) и оценке их питательной ценности.

0

Как в сравнении цены и популярности, так и в сопоставлении количества товаров с калорийностью на лидирующих позициях среди категорий оказались напитки. Эта категория демонстрировала парадоксальное сочетание: при относительно высокой средней цене она сохраняла максимальную популярность, одновременно лидируя и по представленности в ассортименте. В представленном мной анализе категория закуски, хотя и показывала умеренную цену, демонстрировала неожиданно низкие показатели популярности, не соответствующие их широкой доступности.

В процессе создания комплексной столбчатой диаграммы для сравнения показателей по типам товаров мы столкнулись с нетривиальной проблемой визуального наложения. Стандартное размещение легенды (легенда loc='upper right' или loc='best') в условиях двойных осей (twinx) и ограниченного пространства графика приводило к тому, что легенда неизбежно перекрывала ключевые элементы данных — либо верхушки столбцов с наибольшими значениями, либо текстовые аннотации с цифровыми показателями. Это нарушало основной принцип визуальной аналитики: наглядность и беспрепятственное чтение информации.

Для решения этой задачи я обратилась к (ChatGPT, чтобы получить готовое, оптимизированное решение по позиционированию, которое можно было бы интегрировать в код. Целью было не просто сдвинуть легенду, а жестко зафиксировать её за пределами области данных, обеспечив абсолютную читаемость без ручного подбора координат для каждого конкретного графика.

Результатом выполнения этого промта стал код, который закрепляет единую легенду для каждого подграфика строго по центру под его осью X, используя параметр bbox_to_anchor=(0.5, -0.05). Для второго, нижнего графика, чтобы легенды не накладывались друг на друга, было применено смещение bbox_to_anchor=(0.5, -0.12). Это решение, сгенерированное нейросетью, оказалось масштабируемым и эстетически точным: легенды перестали конфликтовать с данными, сохранили горизонтальную компактность и визуально выровнялись с общей структурой графиков, не нарушив композицию.

0

Заключение

Проведённый анализ данных о зимних продуктах и напитках раскрыл закономерности формирования потребительского спроса в холодный сезон. Этот тезис подтверждает не только сравнение ключевых метрик (цена, популярность, калорийность), но и исследование географического распределения, а также динамики трендов от сезона к сезону.

Удалось установить значимые взаимосвязи между различными параметрами товаров, выявленные с помощью корреляционного анализа и многомерной визуализации. Оказалось, что наиболее популярные категории товаров (напитки) демонстрируют парадоксальное сочетание относительно высокой цены и стабильно высокого потребительского спроса, что говорит о ценности воспринимаемого зимнего комфорта, а не только о ценовой доступности.

Кроме того, были выявлены страны-лидеры по представленности и популярности их продуктов, а также сезонные изменения в ассортиментной политике и ценовых стратегиях. Так называемые фавориты потребительского выбора — кофе и горячий сидр, представленные в разных странах и ценовых категориях, подтвердили свой статус абсолютных зимних хитов.

Таким образом, можно утверждать, что зимний рынок продуктов и напитков — это рынок эмоционального уюта, где потребительская логика балансирует между практической пользой, культурной традицией и желанием создать комфортную атмосферу. А для нас, аналитиков, главным открытием стало то, что зимний комфорт имеет свою точную цену, географию и сезонную динамику, и это — уже не просто предположение, а вывод, подтверждённый данными.

Анализ подобных данных особенно актуален в преддверии зимнего сезона и праздничного периода, поскольку такие исследования способствуют пониманию глубинных механизмов потребительского поведения в условиях сезонного спроса.

Это исследование подтверждает, что данные о потребительских предпочтениях — это не просто цифры, а зашифрованное повествование о традициях, привычках и способах создания комфорта, которое можно расшифровать с помощью современных аналитических методов.