Original size 2480x3500

Намасте! Спасибо, что ехали с Uber!

The project is taking part in the competition
big
Original size 4353x1917

➠ Вводная часть ➠

Для анализа мною был выбран датасет «Uber Data Analytics Dashboard» с сайта Kaggle в формате csv. В нем содержится информация о 148 770 заказах и предоставляет полное представление о характеристиках поездок — оценки, отмены, поведение клиентов, финансовые показатели, тип транспортного средства и т. п.

Мне хотелось более глубоко изучить то, что с одной стороны, для нас является чем-то обыденным, с другой стороны, на что можно было бы посмотреть «под другим углом». Поэтому мой выбор пал на анализ такси (которое мы видим ежедневно и привыкли их к однотипному виду), но под призмой индийского Uber (в котором самая частая форма такси — это рикша).

Я сделала графики разных видов (тепловая карта, гистограмма, круговая диаграмма, горизонтальная столбчатая диаграмма, точечная диаграмма, линейный график) для того, чтобы наглядно и интересно отобразить аналитику, что поможет донести ключевые выводы до читателей.

big
Original size 5199x2063

Визуальное оформление проекта вдохновлено:

➠ Колористикой Индии

В качестве цветовой палитры я выбрала оттенки, напоминающие флаг Индии (эти цвета используются также для такси) на фоне светло-голубого неба.

➠ Индийскими скульптурами

Они напоминают мне пластилин и мультфильмы с самобытными персонажами. Для проекта я создала своего персонажа с помощью нейросети Reve.

➠ Динамикой транспорта

Передаю с помощью шрифтов и стрелок «в движении».

➠ Языком Хинди

Шрифт «Bowler», который я использую в графиках, имеет схожую монотонность с письменностью в Индии, а также имеет технологичный характер, соответствующий категории «транспорт».

➠ Начальный этап работы ➠

Original size 944x252
Original size 4353x574

Монтирование Google Drive в Google Colab

Original size 4353x728

Импорт библиотеки pandas для работы с табличными данными Чтение CSV-файла с данными

Original size 4353x1344

Установка шрифта Bowler как шрифта по умолчанию для всех графиков

➠ Визуализация данных ➠

В ходе работы я использовала следующие библиотеки Python: ➠ Pandas (библиотека для анализа и обработки данных), ➠ Matplotlib (основная библиотека для визуализации данных), ➠ Numpy (основная библиотека для научных вычислений), ➠ Seaborn (библиотека для статистической визуализации данных).

➠ ГРАФИК № 1. ➠

Связь оценок водителей и клиентов с ценой поездки
Original size 4353x2677
Original size 947x784

➠ Самые низкие оценки (3) и водители, и клиенты ставят при наиболее дорогих поездках (580+ INR (индийских рупий) (510+ RUB)). ➠ Оценка выше 4.5 и от клиентов, и от водителей в основном получается при цене поездки 500-540 INR (439-474 RUB).


Возможно, в Индии более дорогие поездки не в силу комфортных условий, а из-за сильных пробок/длинных маршрутов через перегруженные районы/пиков спроса. Эти факторы ухудшают опыт обеих сторон. Примерный сценарий в таком случае: Клиент видит цену выше среднего → Завышенные ожидания и требования → Сервис как был, так и остался на среднем уровне + возможно прибавились обстоятельства наподобие пробок → Неоправданные ожидания → Плохая оценка от клиента → Ухудшение настроения водителя → Плохая оценка от водителя


Рейтинг отражает скорее разницу между ожиданиями и реальностью, чем качество сервиса.

➠ ГРАФИК № 2. ➠

Частота комбинаций оценок
Original size 4353x2356
Original size 1219x576

➠ Самая частая комбинация оценок (условие одинаковой оценки от водителя и от клиента) — [4.5-клиент, 4.5-водитель] (встречается в 16 000 поездках). ➠ Нередкие комбинации — [4.5-водитель, 4.0-клиент], [4.0-водитель, 4.5-клиент], [4.5-водитель, 4.0-клиент)] (количество поездок около 10000-12000). ➠ Комбинация [4.0-водитель, 4.0-клиент] встречается примерно в 8000 поездках. ➠ Зеленая диагональ не образовалась, а значит не все оценки совпадают часто.


Выходит, что в Индии поездки чаще проходят практически отлично (оценка 4.5), значит сервис в основном устраивает как тех, кто им пользуется, так и тех, кто его предоставляет.

➠ ГРАФИК № 3. ➠

Распределение разницы между оценками
Original size 4353x1620
Original size 1355x579

➠ Преобладающее количество (в баллах) разницы — от 0.00 до 0.25 (практически в 30000 поездках). ➠ Разница менее, чем в 1 балл, встречается примерно в 80000 поездках. ➠ Разница более, чем в 1 балл, встречается примерно в 14000 поездках.


Это значит, что работает в основном «зеркальное» оценивание (несмотря на то, что водители и клиенты не видят оценки друг друга, разница зачастую совсем небольшая) и чаще поездки проходят без выраженных недовольств одной из сторон.

➠ ГРАФИК № 4. ➠

Распределение отмен поездок: клиенты vs водители
Original size 4353x2291
Original size 1043x654

➠ Отмены клиентами — 28%. ➠ Отмены водителями — 72%.


Наблюдается существенная разница между количеством отмены каждой из сторон. Немного странным кажется то, что почти 3 из 4 отмен происходят по инициативе водителей. Возможно, в Индии гораздо больше весомых для отмены водителями факторов, нежели чем для отмены клиентами. Рассмотрим этот вопрос в следующем графике.

➠ ГРАФИКИ № 5 И № 6. ➠

Причины отмены водителями и причины отмены клиентами
Original size 4353x2933

➠ Причины отмены поездок водителями в целом равномерно распределены по частоте (24.76-25.32%). ➠ 4 из 5 причин отмены клиентами в целом также равномерно распределены по частоте (21.86-22.5%). Одна причина встречается реже (11%).


В совокупности 75,08% отмен поездок таксистами происходит из-за клиента (из-за разного рода проблем с ним — будь то болезнь, несоответствие количества пассажиров и т. п.) и 24,2% из-за личных проблем. Клиенты же отменяют поездку в 44,9% из-за личных проблем (указали неправильный адрес или изменились планы) и в 55,1% из-за действий водителя (едет не по направлению точки заказа или не едет вообще) или дискомфорта в салоне (если не работает кондиционер).


Скорее всего, любая проблема с клиентом, которая угрожает эффективности работы водителя (ожидание, короткая или неудобная поездка, конфликтность, риск неоплаты) — это прямая угроза его заработку. Поэтому он быстро отменяет, списывая на «проблему у клиента».


Клиент же, если видит на карте, что водитель стоит на месте или едет в противоположную сторону, — начинает чувствовать себя раздраженным и теряет доверие. А неработающий кондиционер в индийскую жару — это немедленный дискомфорт.

➠ ГРАФИК № 7. ➠

Распределение цены поездки
Original size 4353x2228
Original size 984x584

➠ Средняя цена поездки — 508 INR (446 RUB). ➠ Стоимость менее 1000 INR (879 RUB) характерна примерно 92000 поездкам. ➠ Стоимость от 1000 INR (879 RUB) до 2500 INR (2198 RUB) характерна примерно 8700 поездкам.


Выходит, что подавляющее большинство поездок — экономные, а значит на небольшую дистанцию. Рынок Uber в Индии — это в первую очередь сервис для повседневных, внутригородских поездок.

➠ ГРАФИК № 8. ➠

Средняя цена поездки по дням в году
Original size 4353x2410
Original size 1286x684

(Дни 1-31: Январь Дни 32-59: Февраль Дни 60-90: Март Дни 91-120: Апрель Дни 121-151: Май Дни 152-181: Июнь Дни 182-212: Июль Дни 213-243: Август Дни 244-273: Сентябрь Дни 274-304: Октябрь Дни 305-334: Ноябрь Дни 335-365: Декабрь)

➠ Самая высокая средняя цена поездки приходится на примерно 295 день (22 октября) ➠ Отсутствует средняя цена поездки размером 550 INR (483 RUB). ➠ Самый частый диапазон цены поездок — 420-450 NR (369-395 RUB).


Высокая средняя цена поездки в Uber в конце октября в Индии может быть обусловлена пиком фестивального сезона (Дивали (Праздник огней) — самый важный и масштабный праздник в Индии, который обычно выпадает на октябрь), пиком свадебного сезона и туризма, улучшением погодных условий (жара спадает, исчезает дискомфорт от дождей — это самое комфортное время для поездок).


Средний ценник, как было понятно еще на предыдущем графике, соответствует короткой или средней поездке на эконом-сервисе в обычный день.

➠ ГРАФИК № 9. ➠

Распределение средней цены поездки по месяцам в году
Original size 3265x2949
Original size 1282x684

➠ Самая высокая средняя цена поездки — в марте (более 525 INR (460 RUB)). ➠ Самая низкая средняя цена поездки — в мае и в августе (примерно 250 INR (219 RUB)).


Пик цены в марте может быть обусловлен Холи — фестивалем красок. Это массовый праздник, когда общественный транспорт перегружен, а люди охотнее платят за такси, чтобы добраться до мест празднования. Упадок средней цены в мае возможен из-за сильной жары. Температура в большей части страны достигает 40-48°C. Упадок средней цены в августе возможен также из-за погодных условий: в этот период в Индии проливные дожди и наводнения.

➠ ГРАФИК № 10. ➠

Распределение по транспортным средствам
Original size 4353x2213
Original size 983x784
Original size 2844x311

Виды транспортных средств Uber (Индия)

➠ Самое популярный вид транспортного средства — Auto (рикши) (24.9%) ➠ Самый непопулярный вид транспортного средства — Uber XL (3%)


Стоимость поездки на Auto часто в 1.5-2 раза ниже, чем на самом дешёвом автомобиле Uber Go. Для страны с высокой ценовой чувствительностью это главный аргумент. Тариф XL значительно выше, чем у Uber Go или даже Uber Premier. Для большой семьи часто дешевле взять две рикши или два автомобиля Go, чем один XL.

➠ Выводы ➠

На основе проведённого анализа данных о поездках Uber в Индии можно сформулировать следующие ключевые выводы:

➠ ➠ 1. Рынок ориентирован на повседневные и короткие поездки.

➠ ➠ 2. Удовлетворённость сервисом высока, но напрямую зависит от стоимости и ожиданий.

➠ ➠ 3. На стоимость и количество поездок сильно влияют сезонные и культурные факторы.

➠ Описание применения генеративной модели ➠

1. Нейросеть Reve: ➠ генерация обложки (промпт: «Indian Uber rickshaw taxi driving on a beautiful street in India, claymation illustration style») ➠ генерация персонажа (промпт: «A full-length character, a taxi driver from India, made of plasticine, standing on a black background. Wear him with a sweatshirt in color #F8B84C, gray jeans and flip-flops. Put one hand on your belt, and with the other he waves, greeting and smiling.») ➠ генерация пластилиновых шин (промпт: «4 identical, single-color tires in a row, made of plasticine. The color of the first is 8DD7D9, the color of the second is FBF2C6, the color of the third is F8B84C, the color of the fourth is 3A975A»)

2. Adobe Color ➠ выявление цветовой гаммы с флага Индии для дальнейшей доработки

3. Deepseek ➠ помощь с установкой шрифта по умолчанию (промпт: «как сделать так, чтобы в этом графике был шрифт Inter?») ➠ помощь с установкой темной темы графиков (черный фон и белый текст) (промпт: «у меня есть код: [скопированный из Google Collab код]. как сделать так, чтобы весь текст в коде был белого цвета, а фон — черного?») ➠ нахождение способа переименования текста в графике с английского на русский (ввод своего значения) (промпт: «у меня есть такой код: [скопированный из Google Collab код]. что и куда мне вставить, чтобы я вручную вписала значения названий строк?»)

4. Алиса AI ➠ анимация персонажа (промпт: «Оставь все, как есть — черный фон и позиция пластилинового человека на картинке. Он машет рукой»)

Original size 4353x1118