Original size 595x842

Визуализация данных: анализ продаж супермаркета

PROTECT STATUS: not protected
The project is taking part in the competition

Выбор базы данных

В этом датасете проводится анализ продаж супермаркета за период с января по март 2019 года с фокусом на структуру выручки и покупательское поведение. В рамках анализа рассматривается распределение продаж по товарным категориям и филиалам супермаркета, а также сравнивается средний чек в разных магазинах сети. Отдельное внимание уделяется популярности различных способов оплаты и тому, как клиенты совершают покупки в течение дня. Анализ также включает изучение покупательской активности по времени, что позволяет выявить часы наибольшего спроса. В завершение исследуется удовлетворённость клиентов на основе их рейтингов и анализируется связь между оценкой покупки и размером чека.

Мне было интересно работать именно с этими данными, потому что они максимально прикладные и понятные. Денежный формат легко интерпретируется, и результаты анализа можно сразу увидеть визуально, без сложных допущений. Кроме того, в датасете есть несколько логичных гипотез, которые хочется проверить на практике. Для учебного проекта по визуализации данных это хороший пример, где графики действительно помогают лучше понять структуру информации, а не просто иллюстрируют цифры.

Визуализация

В ходе работы я использовала несколько типов графиков, так как каждый из них решает свою задачу:

- Горизонтальная столбчатая диаграмма была выбрана для сравнения продаж по товарным категориям, так как она наглядно показывает различия между ними и удобна для категорий с длинными названиями. - Круговая диаграмма использовалась для отображения распределения способов оплаты, поскольку в этом случае важно показать доли от общего объёма. - Обычная столбчатая диаграмма применялась для сравнения показателей между филиалами супермаркета и среднего чека. - Линейный график позволил отследить динамику покупок во времени и увидеть пиковые периоды активности. - Диаграмма рассеяния использовалась для анализа связи между размером чека и оценкой покупки, чтобы визуально проверить наличие зависимости между этими показателями. Данные я нашла на сайте Kaggle.

Обраюотка данных

big
Original size 1348x602
Original size 917x457

По графику видно, что больше всего выручки приносит категория Food and beverages, то есть продукты питания и напитки. У остальных категорий вклад отличается незначительно, но они все же немного уступают лидеру. Меньше всего выручки приносит категория Health and beauty. Но, в целом, продажи распределены достаточно ровно, без сильного разрыва между категориями.

Original size 1348x602
Original size 537x542

Здесь видно, что покупатели почти одинаково часто покупают что-либо за наличные деньги, электронные кошельки и банковские карты. Небольшое преимущество у электронных кошельков и наличных. Это говорит о том, что клиенты пользуются разными способами оплаты, и ни один из них не является единственным предпочтительным.

Original size 1348x602
Original size 660x434

Филиал C имеет самый высокий средний чек. Филиалы A и B немного уступают, но разница между всеми ними совсем небольшая. Это может быть связано с расположением магазинов или особенностями покупателей в этих районах.

Original size 1582x602
Original size 776x434

Видно, что больше всего покупок совершается в утренние и обеденные часы и особенно много — в вечернее время, около 19 часов. После этого активность резко снижается. Это говорит о том, что многие покупатели приходят в супермаркет после работы или в свободное время вечером. А также часто приходят в обед (видимо во время обеденного перерыва) и утром (видимо, чтобы позавтракать).

Original size 1324x362
Original size 596x488

По графику видно, что высокие и средние оценки встречаются при любых суммах покупок. Большая трата денег не гарантирует высокую оценку, так же как и небольшой чек не означает низкую оценку. Это говорит о том, что удовлетворённость клиентов больше зависит от качества обслуживания и товаров, а не от суммы покупки.

Нейросети

ИИ в проекте использовался для вопросов по графикам. Примеры промптов: Как нарисовать графы в python? Как описать данные в питоне? Как обработать данные в питоне? Как проанализировать данные? Какие графики лучше использовать? Какими функциями их рисовать? Как покрасить графики?

Также обложку к проекту мне тоже сгенерировал Chat GPT по запросу «сгенерируй обложку к проекту по анализу и визуализации данных продаж супермаркета за период с января по март 2019 года»

Источники

Ссылка на папку с блокнотом и датасетом: https://disk.yandex.ru/d/cJULb75fedaaGw