
О проекте

Для исследования я использовала датасет «The Ultimate Halloween Candy Power Ranking» от FiveThirtyEight (Kaggle) В нём собраны 85 популярных видов конфет, а для каждой конфеты указаны характеристики (например: шоколадная/фруктовая, есть ли карамель, орехи, вафля, батончик и т. д.), а также показатель winpercent — насколько часто эта конфета «побеждает» в парных сравнениях (то есть выбирается людьми чаще).
Мне нравится Хэллоуин, в нём всегда есть особая атмосфера: тёмные цвета, яркие акценты, необычные упаковки и, конечно, много сладостей. Я часто замечала, что на Хэллоуин одни конфеты пользуются большой популярностью, а другие почему-то нет. Мне стало интересно: это случайность или у людей действительно есть устойчивые предпочтения?
Поэтому я решила посмотреть на данные и понять, что именно делает конфету более популярной. Например, влияет ли наличие шоколада, карамели, орехов, вафли, «батончиковая» форма или фруктовый вкус. Хочется не просто перечислить самые любимые конфеты, а объяснить, почему они оказываются в лидерах и какие характеристики чаще встречаются у победителей.

В ходе исследования я решила использовать данные графики:
1. Топ конфет по популярности — горизонтальная столбчатая диаграмма. Чтобы быстро увидеть лидеров по winpercent и сравнить их между собой.
2. Шоколад vs без шоколада — boxplot. Чтобы сравнить распределения популярности в двух группах.
3. Что делает конфеты популярнее — горизонтальная столбчатая диаграмма. Чтобы оценить вклад признаков: на сколько пунктов в среднем меняется winpercent, если признак есть/нет.
4. Цена и популярность — диаграмма рассеяния. Чтобы проверить гипотезу «дороже = популярнее?» и увидеть общую тенденцию/разброс точек и выделить топы.
5. Популярность по типам: шоколад vs фруктовость — горизонтальная столбчатая диаграмма. Чтобы сравнить средний winpercent между типами.
6. Сладость и популярность — диаграмма рассеяния. Чтобы проверить, влияет ли сахарность: есть ли заметный тренд или точки в основном «рассыпаны».
7. Распределение популярности — гистограмма распределения. Чтобы понять «нормальная ли» популярность в целом: где основная масса значений, есть ли перекос, насколько далеко хвосты.
Цветовая палитра
Стиль графиков
Для визуализации была выбрана хэллоуинская палитра (чёрный, оранжевый, жёлтый, бордовый, фиолетовый).
Чёрный — базовый фон: ассоциация с Хэллоуином и на нём хорошо читаются подписи и сетка. Оранжевый — тыквенный акцент: выделяет ключевые элементы и лидеров, самый узнаваемый цвет праздника. Жёлтый — второй яркий акцент: подсветка важных значений, чтобы взгляд сразу цеплялся. Бордовый — цвет тёмных отметок: подходит для менее популярных и отрицательных значений, визуально мягче красного. Фиолетовый — мистический оттенок: помогает разделять категории и добавляет контраста к оранжевому, не ломая атмосферу.
В ходе работы над проектом я использовала Visual Studio Code и Pandas. В процессе работы над кодом я пользовалась помощь GPT-5.2 Thinking, который помог с написанием, оптимизацией и исправлением ошибок. Так же обложка и все изображения в визуальном исследовании были сгенерированы Chat-GPT.
Итоговые графики
График № 1
На первом графике показан топ-15 конфет по популярности — были отрисованы конфеты по показателю winpercent (процент «побед» в опросах) и выведены лидеры.
В лидерах заметно доминируют шоколадные батончики и конфеты с шоколадом: на первом месте Reese’s Peanut Butter Cup (~84%), дальше идут Reese’s Miniatures и Twix (~82%), затем Kit Kat и Snickers (76–77%). Остальная часть топа держится в диапазоне примерно 66–73%, то есть даже «нижние» позиции топ-15 остаются довольно высокими по сравнению со средним уровнем по датасету.
Топ-15 конфет по популярности
График № 2
Второй график — boxplot (ящик с усами), он сравнивает популярность у конфет с шоколадом и без шоколада.
По оси Y — winpercent, то есть насколько часто конфета «побеждает» в сравнениях. Оранжевая коробка (Chocolate) заметно выше: и среднее (~60.9), и медиана (~60.8) больше, чем у No chocolate (среднее ~42.1, *медиана ~41.6). «Ящик» показывает средние 50% значений, «усы» — разброс, поэтому видно не только разницу, но и вариативность.
Вывод: шоколадные конфеты в среднем популярнее, чем не шоколадные.
Повышает ли шоколад популярность?
График № 3
Третий график — горизонтальная столбчатая диаграмма «эффекта признака»: показывает, на сколько меняется средний winpercent, если у конфеты есть признак (1) vs нет (0).
По оси X — разница: mean (winpercent | feature=1) − mean (winpercent | feature=0). Ноль — граница: справа признак повышает популярность, слева — снижает. Самый сильный плюс даёт chocolate (шоколад) — заметное увеличение среднего winpercent. Дальше идут crispedricewafer (вафелька/хруст), peanutyalmondy (орехи), bar (батончик), nougat (нуга), caramel (карамель) — тоже добавляют популярности, но слабее. В минус уходит fruity (фруктовые), hard (твёрдые леденцы) и pluribus (много маленьких конфет в упаковке) — у них средний winpercent ниже, чем у конфет без этих признаков.
Вывод: самый выигрышный рецепт — шоколад + хруст/орехи/формат батончика, а фруктовые и твёрдые в среднем менее любимы.
Что делает конфеты популярнее?
График № 4
Четвертый график «Цена и популярность: помогает ли высокая цена?» — это диаграмма рассеяния, где каждая точка = одна конфета.
По оси X — относительная цена (pricepercent): чем правее точка, тем «дороже» конфета относительно других. По оси Y — популярность (winpercent): чем выше точка, тем чаще её выбирают.
Что видно: прямой зависимости «чем дороже — тем популярнее» почти нет. Точки сильно разбросаны: при примерно одинаковой цене встречаются конфеты и с низкой, и с высокой популярностью. При этом самые популярные конфеты (жёлтые точки с подписями — вроде Reese’s, Twix, Snickers, Kit Kat) действительно находятся в верхней части графика, но по цене они не в одной зоне: есть топовые и «средние по цене», и более дорогие.
Вывод по этому графику: цена сама по себе не гарантирует популярность — важнее состав/тип (шоколад, батончик, орехи и т. д.), а цена может быть только одним из факторов.
Цена и популярность
График № 5
График «Популярность по типам: шоколад vs фруктовость» — это горизонтальная столбчатая диаграмма, которая сравнивает среднюю популярность (winpercent) у разных «типов» конфет.
Каждая полоса — это группа: шоколадные, фруктовые, шоколад+фрукт, и ни то ни другое. Длина полосы показывает средний winpercent в группе, а подпись справа — среднее значение и количество конфет (n) в этой группе.
Что видно по результатам:
Шоколадные — самые популярные: примерно 61.3 (n=36). Фруктовые заметно ниже: около 44.0 (n=37). Ни то ни другое — самые непопулярные: примерно 35.9 (n=11). Группа шоколад+фрукт выглядит средне (49.0), но там всего одна конфета (n=1).
Вывод: по этим данным шоколад чаще связан с более высокой популярностью, чем фруктовые вкусы.
Популярность по типам
График № 6
Это диаграмма рассеяния: по оси X — сахарность (sugarpercent), по оси Y — популярность (winpercent). Каждая точка — одна конфета. Оранжевые точки — самые популярные (топ), синие — остальные.
По графику видно, что чёткой зависимости «чем слаще — тем популярнее» нет: популярные конфеты встречаются при разной сахарности, хотя многие из топа лежат в средне-высоких значениях сахарности.
Сладость и популярность
График № 7
График «Распределение популярности конфет (winpercent)» — это гистограмма, которая показывает, как распределены значения популярности у всех конфет в датасете.
По оси X — популярность (winpercent), по оси Y — сколько конфет попало в каждый диапазон. Видно, что большинство конфет «скучковались» примерно в районе 35–60%, а совсем экстремально популярные/непопулярные встречаются реже.
Две вертикальные линии в центре — это ориентиры: оранжевая — среднее значение (≈ 50.3), жёлтая — медиана (≈ 47.8). То, что среднее чуть выше медианы, намекает на небольшой «хвост» вправо: несколько очень популярных конфет слегка поднимают среднее.
Этот график быстро даёт «картину в целом» — какие значения winpercent типичные, а какие редкие.
Распределение популярности конфет
Заключение
В ходе работы я проанализировала датасет с конфетами и метрикой популярности winpercent и визуально проверила, что именно влияет на «победный процент».
По графикам я увидела ключевые закономерности:
лидеры рейтинга — в основном шоколадные батончики;
шоколад заметно повышает популярность (в среднем winpercent выше, чем у не-шоколадных);
среди признаков сильнее всего связаны с популярностью шоколад, «батончиковость», а также ореховость/миндаль; «фруктовость» и «жёсткость» чаще идут в минус;
цена не даёт однозначного роста популярности: дорогие конфеты могут быть как хитами, так и средними — важнее состав и тип;
распределение winpercent показывает, что большинство конфет лежит в «середине», а топовые — это скорее исключения.
Итог: популярность конфет чаще объясняется категорией и составом (шоколад/батончик/орехи), а не одной переменной вроде сахара или цены.
Описание применения генеративной модели
В процессе работы над кодом я пользовалась помощь Chat-GPT, модель: GPT-5.2 Thinking (ChatGPT), который помог с написанием, оптимизацией и исправлением ошибок. Так же обложка и все изображения в визуальном исследовании были сгенерированы Chat-GPT.