
Выбор базы данных
Этот набор данных был синтетически сгенерирован и не все его показатели являются реальными. В перспективе я планирую запустить собственный стартап в сфере электронной коммерции, поэтому анализ даже примерного синтетического датасета продаж и прибыли на Amazon стал для меня стратегически важным шагом, ведь эта платформа делает колоссальные обороты в год.
Добавим библиотеки:

Датасет

Описание столбцов:
Order Date (Order_Date): Дата оформления заказа. Используется для анализа временной динамики продаж, сезонности спроса и построения временных рядов.
Ship Date (Shipping Date): Дата отправки заказа покупателю. Позволяет оценивать скорость обработки заказов и логистическую эффективность.
Email_ID: Электронный адрес пользователя, оформившего заказ. Используется для идентификации клиентов, анализа повторных покупок и сегментации аудитории.
Geography: Географическое расположение пользователя или место оформления заказа. Применяется для анализа продаж по регионам, выявления наиболее активных рынков и региональных особенностей спроса.
Category: Категория товара. Отражает тип продукции и используется для категоризации ассортимента и сравнительного анализа продаж между категориями.
Product Name: Название товара на Amazon. Представляет конкретную позицию в каталоге и используется для анализа популярности отдельных продуктов.
Sales: Объём продаж товара в денежном выражении. Основной показатель для оценки выручки и финансовой эффективности продаж.
Quantity: Количество проданных единиц товара в рамках заказа. Используется для анализа спроса, объёма продаж и расчёта средних показателей.
Profit: Прибыль от продажи товара. Показывает разницу между выручкой и затратами и применяется для оценки рентабельности продуктов и категорий.
Обработка данных
Построим графики для анализа данных
Здесь изображен линейный график:
Синяя линия — ежедневные продажи (Daily Sales) Оранжевая линия — 7-дневное скользящее среднее Видно, что продажи на графике сильно колеблются день ото дня. Среднее сглаживает резкие скачки и показывает общий тренд роста продаж со временем. Видны отдельные экстремальные пики — вероятно, распродажи, крупные корпоративные заказы или сезонные акции. Например, в январе–феврале количество покупок снижается (что не удивительно, ведь это посленовогодний период), а резкие скачки видные в осенью 2011, весной 2013 и 2014.
Здесь изображен линейный график, который отражает ежедневную суммарную прибыль.
Большинство значений сосредоточено ближе к нулю, что говорит о невысокой марже для многих заказов. Наблюдаются как резкие положительные, так и отрицательные выбросы, включая крупные убытки. Например, особенно резкий скачок прибыли произошел весной 2014 года, но этой же весной произошел и сильный убыток.
Порывший в интернете, выяснилось, что в 2014 году компания резко стала набирать популярность за счет роста ассортимента. Убытки же она потерпела за счет стратегии агрессивного роста и инвестиций в новые проекты.
Круговая диаграмма, на которой изображена доля каждой товарной категории в общей сумме продаж.
Категории Chairs и Phones являются крупнейшими источниками выручки компании. Other занимает более трети всех продаж, поскольку в данной категории сконцентрированы различные категории. На самом деле, это очень хороший показатель, поскольку это означает, что Амазон смог достаточно хорошо (неравномерно, но без доминирования одной единственной категории) распределить продажи абсолютно разных категорий товаров, что позволяет ему стабилизировать прибыль и более уверено управлять рисками.
Распределение прибыли для заказов внутри каждой категории в виде графика Boxplot.
В большинстве категорий медианная прибыль близка к нулю, что означает, что амазон делает высокую прибыль за счет количества продаваемых товаров. То есть он держит низкие маржи и компенсирует это огромным объёмом продаж. Либо же он делает прибыль за счет редких дорогостоящих продаж.
Категории Binders и Accessories демонстрируют большое количество выбросов — как положительных, так и отрицательных, что указывает на высокую нестабильность прибыли в данных категориях.
На столбчатой диаграмме изображены 10 товаров с наибольшей суммарной выручкой.
Лидеры продаж заметно опережают остальные товары. Большая часть топ-товаров относится к офисной технике и мебели, что подтверждает лидерство таких категорий, как chairs, tables и storage. Видимо, в основном, с 2011 по 2014 на амазоне делали большие закупки для офисов — неожиданно.
Вывод
Продажи со временем, в целом, растут, но по дням сильно колеблются. Сглаженная линия показывает общий рост, но прибыль ведёт себя менее стабильно и иногда уходит в минус. Это означает, что увеличение продаж не всегда приводит к увеличению прибыли.
Продажи распределены между многими категориями, и ни одна из них не является полностью доминирующей. При этом медианная прибыль в большинстве категорий близка к нулю, то есть обычный заказ почти не приносит прибыли. Основная часть прибыли формируется за счёт небольшого количества очень прибыльных заказов.
В целом данные показывают, что бизнес работает за счёт больших объёмов продаж и широты ассортимента, а стабильность результата сильно зависит от контроля затрат и эффективности процессов.
Использованные нейросети:
1. Recraft (обложка проекта) 2. Deepseek (вопросы по проекту)
Использование ИИ:
ИИ в проекте использовался для консультации по построению графиков и генерации обложки
Примеры промптов:
Как нарисовать графики в питоне?
Какие есть виды графиков? Что они отображают?
Как нарисовать график?
Как отобразить 2 показателя на графике?
Как покрасить график?
Что за график боксплот?