Original size 942x1280

Анализ прогноза цен на одежду

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

Вводная часть:

Для анализа я выбрала датасет с информацией о ценах на одежду, включающий такие параметры, как категория товара, материал, размер, бренд и стоимость, который может быть использован для прогнозирования стоимости одежды. Я учусь на дизайнера и мне это близко и интересно. Эта тема актуальна, так как она даёт не только понимание вкусов и трендов, но и экономическую информацию: какие категории одежды будут востребованы и, соответственно, где цены могут вырасти или упасть. Анализ таких данных позволяет выявить закономерности и сделать прогнозирование цен, что актуально для онлайн-магазинов и маркетологов. В этом проекте затрагивается не самый широкий спектр нюансов для полноценных прогнозов, но он уже является достаточно показательным. Данные для анализа я нашла на платформе Kaggle. .

В анализе используются разные виды графиков. 1. Столбчатая диаграмма — для сравнения средней цены по категориям одежды 2. Скрипичная диаграмма — транслирует информацию о распределении как у гистограммы и компактность как у диаграммы размаха. Для изучения распределения цен по материалам 3. Линейный график — для анализа зависимости средней цены от размера 4. Ящик с усами/Диаграмма размаха — для сравнения медианных цен разных брендов, анализа разброса цен по брендам 5. Гистограмма — для изучения общей структуры цен на одежду

Такой набор графиков позволяет сочетать наглядность с глубиной анализа: мы видим не только средние значения, но и распределение цен.

Этапы работы

1. Поиск и обработка данных

В качестве анализируемого материала я выбрала базу данных Clothes Price Prediction с сайта Kaggle.

Данные загружались с помощью библиотеки pandas. Я проверяла датасет на пропуски и дубликаты, группировала данные для анализа средней цены и подготовила их для визуализации. Для анализа распределений использовались функции violinplot и boxplot.

big
Original size 736x195

Пример кода для обработки и визуализации средней цены по категориям:

2. Стилизация графиков

Для визуализации я использовала библиотеку seaborn с настройкой темы whitegrid и палитры розовых оттенков. Цвета были выбраны так, чтобы графики выглядели гармонично и современно. Вдохновение для стиля графиков было взято из современных дашбордов аналитики в e-commerce и fashion-индустрии.

Original size 557x78

Пример настройки:

3. Формат визуализации

Каждый график оформлен с подписями осей и заголовком, что делает их удобными для понимания. Используются разные виды диаграмм для разных целей: сравнение средних значений, изучение распределений и выявление выбросов.

4. Используемые статистические методы

- Среднее значение (mean) — для анализа средней цены по категориям и размерам. - Распределение (distribution) — для изучения разброса цен и выявления аномалий. - Сравнение категорий (groupby) — для выявления зависимости цены от бренда, материала или размера.

Итоговые графики

Чтобы расширить свои представления о возможных итоговых графиках и анализе данных, я обратилась к ChatGPT за идеями о том, какие взаимосвязи в данном датасете было бы интересно изучить. На основе его ответа я выбрала наиболее подходящие виды графиков.

1. Средняя цена по категориям одежды

0

Наибольшая средняя цена наблюдается у верхней одежды и дизайнерских коллекций, а самые доступные категории — базовые футболки и аксессуары.

2. Распределение цен по материалу

0

Цены на одежду из натуральных материалов, таких как шерсть и хлопок, выше, чем на синтетические ткани. Кроме того, видны выбросы для люксовых тканей, что говорит о наличии премиальных товаров.

3. Средняя цена в зависимости от размера

0

Цена слегка увеличивается с ростом размера, что может объясняться большим расходом материала для больших размеров.

4. Распределение цен по брендам

0

Некоторые бренды имеют широкий разброс цен, включая как бюджетные, так и премиальные позиции. Это полезно для анализа брендинга и позиционирования товаров.

5. Общая структура цен

0

Большинство товаров находятся в среднем ценовом сегменте, а премиальные позиции встречаются реже.

Вывод

Анализ данных показал, что на цену одежды влияют категория товара, материал, размер и бренд. Верхняя одежда и дизайнерские коллекции дороже базовых товаров, натуральные ткани стоят больше синтетических, а увеличение размера слегка повышает цену. Разброс цен по брендам указывает на наличие как бюджетных, так и премиальных позиций. В целом, большинство товаров находятся в среднем ценовом сегменте.

Эти выводы помогают понять закономерности ценообразования и использовать данные для прогнозирования и маркетинговой стратегии.