
Выбор базы данных
В этом датасете проводится анализ продаж супермаркета за период с января по март 2019 года с фокусом на структуру выручки и покупательское поведение. В рамках анализа рассматривается распределение продаж по товарным категориям и филиалам супермаркета, а также сравнивается средний чек в разных магазинах сети. Отдельное внимание уделяется популярности различных способов оплаты и тому, как клиенты совершают покупки в течение дня. Анализ также включает изучение покупательской активности по времени, что позволяет выявить часы наибольшего спроса. В завершение исследуется удовлетворённость клиентов на основе их рейтингов и анализируется связь между оценкой покупки и размером чека.
Мне было интересно работать именно с этими данными, потому что они максимально прикладные и понятные. Денежный формат легко интерпретируется, и результаты анализа можно сразу увидеть визуально, без сложных допущений. Кроме того, в датасете есть несколько логичных гипотез, которые хочется проверить на практике. Для учебного проекта по визуализации данных это хороший пример, где графики действительно помогают лучше понять структуру информации, а не просто иллюстрируют цифры.
Визуализация
В ходе работы я использовала несколько типов графиков, так как каждый из них решает свою задачу:
- Горизонтальная столбчатая диаграмма была выбрана для сравнения продаж по товарным категориям, так как она наглядно показывает различия между ними и удобна для категорий с длинными названиями. - Круговая диаграмма использовалась для отображения распределения способов оплаты, поскольку в этом случае важно показать доли от общего объёма. - Обычная столбчатая диаграмма применялась для сравнения показателей между филиалами супермаркета и среднего чека. - Линейный график позволил отследить динамику покупок во времени и увидеть пиковые периоды активности. - Диаграмма рассеяния использовалась для анализа связи между размером чека и оценкой покупки, чтобы визуально проверить наличие зависимости между этими показателями. Данные я нашла на сайте Kaggle.
Обраюотка данных

По графику видно, что больше всего выручки приносит категория Food and beverages, то есть продукты питания и напитки. У остальных категорий вклад отличается незначительно, но они все же немного уступают лидеру. Меньше всего выручки приносит категория Health and beauty. Но, в целом, продажи распределены достаточно ровно, без сильного разрыва между категориями.
Здесь видно, что покупатели почти одинаково часто покупают что-либо за наличные деньги, электронные кошельки и банковские карты. Небольшое преимущество у электронных кошельков и наличных. Это говорит о том, что клиенты пользуются разными способами оплаты, и ни один из них не является единственным предпочтительным.
Филиал C имеет самый высокий средний чек. Филиалы A и B немного уступают, но разница между всеми ними совсем небольшая. Это может быть связано с расположением магазинов или особенностями покупателей в этих районах.
Видно, что больше всего покупок совершается в утренние и обеденные часы и особенно много — в вечернее время, около 19 часов. После этого активность резко снижается. Это говорит о том, что многие покупатели приходят в супермаркет после работы или в свободное время вечером. А также часто приходят в обед (видимо во время обеденного перерыва) и утром (видимо, чтобы позавтракать).
По графику видно, что высокие и средние оценки встречаются при любых суммах покупок. Большая трата денег не гарантирует высокую оценку, так же как и небольшой чек не означает низкую оценку. Это говорит о том, что удовлетворённость клиентов больше зависит от качества обслуживания и товаров, а не от суммы покупки.
Нейросети
ИИ в проекте использовался для вопросов по графикам. Примеры промптов: Как нарисовать графы в python? Как описать данные в питоне? Как обработать данные в питоне? Как проанализировать данные? Какие графики лучше использовать? Какими функциями их рисовать? Как покрасить графики?
Также обложку к проекту мне тоже сгенерировал Chat GPT по запросу «сгенерируй обложку к проекту по анализу и визуализации данных продаж супермаркета за период с января по март 2019 года»
Источники
1. Kaggle.com 2. ChatGPT
Ссылка на папку с блокнотом и датасетом: https://disk.yandex.ru/d/cJULb75fedaaGw