Original size 1140x1600

Анализ популярности конфет на Хэллоуин

PROTECT STATUS: not protected
The project is taking part in the competition

О проекте

big
Original size 2527x581

Для исследования я использовала датасет «The Ultimate Halloween Candy Power Ranking» от FiveThirtyEight (Kaggle) В нём собраны 85 популярных видов конфет, а для каждой конфеты указаны характеристики (например: шоколадная/фруктовая, есть ли карамель, орехи, вафля, батончик и т. д.), а также показатель winpercent — насколько часто эта конфета «побеждает» в парных сравнениях (то есть выбирается людьми чаще).

Мне нравится Хэллоуин, в нём всегда есть особая атмосфера: тёмные цвета, яркие акценты, необычные упаковки и, конечно, много сладостей. Я часто замечала, что на Хэллоуин одни конфеты пользуются большой популярностью, а другие почему-то нет. Мне стало интересно: это случайность или у людей действительно есть устойчивые предпочтения?

Поэтому я решила посмотреть на данные и понять, что именно делает конфету более популярной. Например, влияет ли наличие шоколада, карамели, орехов, вафли, «батончиковая» форма или фруктовый вкус. Хочется не просто перечислить самые любимые конфеты, а объяснить, почему они оказываются в лидерах и какие характеристики чаще встречаются у победителей.

big
Original size 2527x581

В ходе исследования я решила использовать данные графики:

1. Топ конфет по популярности — горизонтальная столбчатая диаграмма. Чтобы быстро увидеть лидеров по winpercent и сравнить их между собой.

2. Шоколад vs без шоколада — boxplot. Чтобы сравнить распределения популярности в двух группах.

3. Что делает конфеты популярнее — горизонтальная столбчатая диаграмма. Чтобы оценить вклад признаков: на сколько пунктов в среднем меняется winpercent, если признак есть/нет.

4. Цена и популярность — диаграмма рассеяния. Чтобы проверить гипотезу «дороже = популярнее?» и увидеть общую тенденцию/разброс точек и выделить топы.

5. Популярность по типам: шоколад vs фруктовость — горизонтальная столбчатая диаграмма. Чтобы сравнить средний winpercent между типами.

6. Сладость и популярность — диаграмма рассеяния. Чтобы проверить, влияет ли сахарность: есть ли заметный тренд или точки в основном «рассыпаны».

7. Распределение популярности — гистограмма распределения. Чтобы понять «нормальная ли» популярность в целом: где основная масса значений, есть ли перекос, насколько далеко хвосты.

Original size 2339x394

Цветовая палитра

Original size 1085x1405

Стиль графиков

Для визуализации была выбрана хэллоуинская палитра (чёрный, оранжевый, жёлтый, бордовый, фиолетовый).

Чёрный — базовый фон: ассоциация с Хэллоуином и на нём хорошо читаются подписи и сетка. Оранжевый — тыквенный акцент: выделяет ключевые элементы и лидеров, самый узнаваемый цвет праздника. Жёлтый — второй яркий акцент: подсветка важных значений, чтобы взгляд сразу цеплялся. Бордовый — цвет тёмных отметок: подходит для менее популярных и отрицательных значений, визуально мягче красного. Фиолетовый — мистический оттенок: помогает разделять категории и добавляет контраста к оранжевому, не ломая атмосферу.

Original size 2527x581

В ходе работы над проектом я использовала Visual Studio Code и Pandas. В процессе работы над кодом я пользовалась помощь GPT-5.2 Thinking, который помог с написанием, оптимизацией и исправлением ошибок. Так же обложка и все изображения в визуальном исследовании были сгенерированы Chat-GPT.

Итоговые графики

График № 1

На первом графике показан топ-15 конфет по популярности — были отрисованы конфеты по показателю winpercent (процент «побед» в опросах) и выведены лидеры.

В лидерах заметно доминируют шоколадные батончики и конфеты с шоколадом: на первом месте Reese’s Peanut Butter Cup (~84%), дальше идут Reese’s Miniatures и Twix (~82%), затем Kit Kat и Snickers (76–77%). Остальная часть топа держится в диапазоне примерно 66–73%, то есть даже «нижние» позиции топ-15 остаются довольно высокими по сравнению со средним уровнем по датасету.

Original size 2052x1415

Топ-15 конфет по популярности

Original size 2035x1260
Original size 2527x394

График № 2

Второй график — boxplot (ящик с усами), он сравнивает популярность у конфет с шоколадом и без шоколада.

По оси Y — winpercent, то есть насколько часто конфета «побеждает» в сравнениях. Оранжевая коробка (Chocolate) заметно выше: и среднее (~60.9), и медиана (~60.8) больше, чем у No chocolate (среднее ~42.1, *медиана ~41.6). «Ящик» показывает средние 50% значений, «усы» — разброс, поэтому видно не только разницу, но и вариативность.

Вывод: шоколадные конфеты в среднем популярнее, чем не шоколадные.

Original size 1610x1237

Повышает ли шоколад популярность?

Original size 3485x2507
Original size 2527x394

График № 3

Третий график — горизонтальная столбчатая диаграмма «эффекта признака»: показывает, на сколько меняется средний winpercent, если у конфеты есть признак (1) vs нет (0).

По оси X — разница: mean (winpercent | feature=1) − mean (winpercent | feature=0). Ноль — граница: справа признак повышает популярность, слева — снижает. Самый сильный плюс даёт chocolate (шоколад) — заметное увеличение среднего winpercent. Дальше идут crispedricewafer (вафелька/хруст), peanutyalmondy (орехи), bar (батончик), nougat (нуга), caramel (карамель) — тоже добавляют популярности, но слабее. В минус уходит fruity (фруктовые), hard (твёрдые леденцы) и pluribus (много маленьких конфет в упаковке) — у них средний winpercent ниже, чем у конфет без этих признаков.

Вывод: самый выигрышный рецепт — шоколад + хруст/орехи/формат батончика, а фруктовые и твёрдые в среднем менее любимы.

Original size 2072x1222

Что делает конфеты популярнее?

Original size 1957x1110
Original size 2527x394

График № 4

Четвертый график «Цена и популярность: помогает ли высокая цена?» — это диаграмма рассеяния, где каждая точка = одна конфета.

По оси X — относительная цена (pricepercent): чем правее точка, тем «дороже» конфета относительно других. По оси Y — популярность (winpercent): чем выше точка, тем чаще её выбирают.

Что видно: прямой зависимости «чем дороже — тем популярнее» почти нет. Точки сильно разбросаны: при примерно одинаковой цене встречаются конфеты и с низкой, и с высокой популярностью. При этом самые популярные конфеты (жёлтые точки с подписями — вроде Reese’s, Twix, Snickers, Kit Kat) действительно находятся в верхней части графика, но по цене они не в одной зоне: есть топовые и «средние по цене», и более дорогие.

Вывод по этому графику: цена сама по себе не гарантирует популярность — важнее состав/тип (шоколад, батончик, орехи и т. д.), а цена может быть только одним из факторов.

Original size 2042x1237

Цена и популярность

Original size 2000x582
Original size 2527x394

График № 5

График «Популярность по типам: шоколад vs фруктовость» — это горизонтальная столбчатая диаграмма, которая сравнивает среднюю популярность (winpercent) у разных «типов» конфет.

Каждая полоса — это группа: шоколадные, фруктовые, шоколад+фрукт, и ни то ни другое. Длина полосы показывает средний winpercent в группе, а подпись справа — среднее значение и количество конфет (n) в этой группе.

Что видно по результатам:

Шоколадные — самые популярные: примерно 61.3 (n=36). Фруктовые заметно ниже: около 44.0 (n=37). Ни то ни другое — самые непопулярные: примерно 35.9 (n=11). Группа шоколад+фрукт выглядит средне (49.0), но там всего одна конфета (n=1).

Вывод: по этим данным шоколад чаще связан с более высокой популярностью, чем фруктовые вкусы.

Original size 1857x1010

Популярность по типам

Original size 2060x940
Original size 2527x394

График № 6

Это диаграмма рассеяния: по оси X — сахарность (sugarpercent), по оси Y — популярность (winpercent). Каждая точка — одна конфета. Оранжевые точки — самые популярные (топ), синие — остальные.

По графику видно, что чёткой зависимости «чем слаще — тем популярнее» нет: популярные конфеты встречаются при разной сахарности, хотя многие из топа лежат в средне-высоких значениях сахарности.

Original size 1745x1135

Сладость и популярность

Original size 1307x455
Original size 2527x394

График № 7

График «Распределение популярности конфет (winpercent)» — это гистограмма, которая показывает, как распределены значения популярности у всех конфет в датасете.

По оси X — популярность (winpercent), по оси Y — сколько конфет попало в каждый диапазон. Видно, что большинство конфет «скучковались» примерно в районе 35–60%, а совсем экстремально популярные/непопулярные встречаются реже.

Две вертикальные линии в центре — это ориентиры: оранжевая — среднее значение (≈ 50.3), жёлтая — медиана (≈ 47.8). То, что среднее чуть выше медианы, намекает на небольшой «хвост» вправо: несколько очень популярных конфет слегка поднимают среднее.

Этот график быстро даёт «картину в целом» — какие значения winpercent типичные, а какие редкие.

Original size 2025x1232

Распределение популярности конфет

Original size 2227x957
Original size 2527x609

Заключение

В ходе работы я проанализировала датасет с конфетами и метрикой популярности winpercent и визуально проверила, что именно влияет на «победный процент».

По графикам я увидела ключевые закономерности:

лидеры рейтинга — в основном шоколадные батончики;

шоколад заметно повышает популярность (в среднем winpercent выше, чем у не-шоколадных);

среди признаков сильнее всего связаны с популярностью шоколад, «батончиковость», а также ореховость/миндаль; «фруктовость» и «жёсткость» чаще идут в минус;

цена не даёт однозначного роста популярности: дорогие конфеты могут быть как хитами, так и средними — важнее состав и тип;

распределение winpercent показывает, что большинство конфет лежит в «середине», а топовые — это скорее исключения.

Итог: популярность конфет чаще объясняется категорией и составом (шоколад/батончик/орехи), а не одной переменной вроде сахара или цены.

Original size 2527x609

Описание применения генеративной модели

В процессе работы над кодом я пользовалась помощь Chat-GPT, модель: GPT-5.2 Thinking (ChatGPT), который помог с написанием, оптимизацией и исправлением ошибок. Так же обложка и все изображения в визуальном исследовании были сгенерированы Chat-GPT.

Ссылка

Original size 2527x609
Original size 2527x394