
Описание проекта
В анализе используются разные виды графиков. 1. Столбчатая диаграмма — для сравнения средней цены по категориям одежды 2. Скрипичная диаграмма — транслирует информацию о распределении как у гистограммы и компактность как у диаграммы размаха. Для изучения распределения цен по материалам 3. Линейный график — для анализа зависимости средней цены от размера 4. Ящик с усами/Диаграмма размаха — для сравнения медианных цен разных брендов, анализа разброса цен по брендам 5. Гистограмма — для изучения общей структуры цен на одежду
Такой набор графиков позволяет сочетать наглядность с глубиной анализа: мы видим не только средние значения, но и распределение цен.
Этапы работы
Данные загружались с помощью библиотеки pandas. Я проверяла датасет на пропуски и дубликаты, группировала данные для анализа средней цены и подготовила их для визуализации. Для анализа распределений использовались функции violinplot и boxplot.

Пример кода для обработки и визуализации средней цены по категориям:
Для визуализации я использовала библиотеку seaborn с настройкой темы whitegrid и палитры розовых оттенков. Цвета были выбраны так, чтобы графики выглядели гармонично и современно. Вдохновение для стиля графиков было взято из современных дашбордов аналитики в e-commerce и fashion-индустрии.
Пример настройки:
Каждый график оформлен с подписями осей и заголовком, что делает их удобными для понимания. Используются разные виды диаграмм для разных целей: сравнение средних значений, изучение распределений и выявление выбросов.
- Среднее значение (mean) — для анализа средней цены по категориям и размерам. - Распределение (distribution) — для изучения разброса цен и выявления аномалий. - Сравнение категорий (groupby) — для выявления зависимости цены от бренда, материала или размера.
Итоговые графики
Чтобы расширить свои представления о возможных итоговых графиках и анализе данных, я обратилась к ChatGPT за идеями о том, какие взаимосвязи в данном датасете было бы интересно изучить. На основе его ответа я выбрала наиболее подходящие виды графиков.
Наибольшая средняя цена наблюдается у верхней одежды и дизайнерских коллекций, а самые доступные категории — базовые футболки и аксессуары.
Цены на одежду из натуральных материалов, таких как шерсть и хлопок, выше, чем на синтетические ткани. Кроме того, видны выбросы для люксовых тканей, что говорит о наличии премиальных товаров.
Цена слегка увеличивается с ростом размера, что может объясняться большим расходом материала для больших размеров.
Некоторые бренды имеют широкий разброс цен, включая как бюджетные, так и премиальные позиции. Это полезно для анализа брендинга и позиционирования товаров.
Большинство товаров находятся в среднем ценовом сегменте, а премиальные позиции встречаются реже.
Анализ данных показал, что на цену одежды влияют категория товара, материал, размер и бренд. Верхняя одежда и дизайнерские коллекции дороже базовых товаров, натуральные ткани стоят больше синтетических, а увеличение размера слегка повышает цену. Разброс цен по брендам указывает на наличие как бюджетных, так и премиальных позиций. В целом, большинство товаров находятся в среднем ценовом сегменте.
Эти выводы помогают понять закономерности ценообразования и использовать данные для прогнозирования и маркетинговой стратегии.