
Введение
Universal Studios — это сеть тематических парков, которые за счёт декораций, спецэффектов и продуманной «сценографии» буквально создают ощущение, что посетитель попал в другой мир.
Все парки устроены по похожим принципам и узнаваемы как бренд, но впечатления от них могут отличаться, например, из-за организации, набора зон и проработки атмосфера.
Я давно мечтаю попасть в один парков, в том числе, чтобы пройтись по локациям из моих любимых фильмов, но это дорогое удовольствие, поэтому хочется более ответственно подойти к выбору локации для посещения, опираясь на отзывы посетителей.
Для анализа я выбрала подходящий датасет с платформы kaggle.com, который содержит более 50 000 отзывов о парках Universal Studios, собранных с TripAdvisor.
В таблице есть имя пользователя, дата, оценка по шкале 1–5, заголовок и полный текст отзыва, а также локация парка (Флорида, Сингапур, Япония).
Такой набор данных ценен тем, что позволяет сравнивать парки одной сети в разных странах и одновременно анализировать два слоя опыта: числовую оценку и язык впечатлений.
Для более наглядной визуализации данных я выбрала несколько типов графиков, каждый из которых отвечает на отдельный исследовательский вопрос и логично дополняет другой.
Кольцевая диаграмма, чтобы показать доли отзывов по локациям и сразу увидеть дисбаланс выборки между парками.
Столбчатая диаграмма, чтобы сравнить распределение звёздных оценок (1-5) по локациям и увидеть, где доминируют 4-5 звёзд и насколько редки низкие оценки.
Тепловая карта, чтобы визуализировать связь между оценкой (1-5) и тональностью текста (VADER compound от −1 до 1), то есть сопоставить численный рейтинг и эмоциональную окраску отзыва.
Линейный график, чтобы отследить динамику средней оценки по годам, выделить стабильные периоды и заметные просадки/скачки.
Этапы Работы
Изначально планировалось извлечь из текстов отзывов более структурированную информацию, например ключевые темы или основные жалобы посетителей, но задача оказалась слишком технически сложной.
Вместо этого была использована модель анализа тональности текста VADER (Valence Aware Dictionary and sEntiment Reasoner).
Эта модель основана на словаре эмоционально окрашенных слов и учитывает усилители, отрицания и пунктуацию, что позволяет оценить общий тон текста по шкале от −1 (негативный) до 1 (позитивный).
Полученные значения были использованы для сопоставления эмоциональной окраски отзывов с выставленными оценками.
В проекте использовался Deepseek для подбора подходящей модели анализа тональности, а также для помощи в унификации визуального оформления графиков.
Все графики были оформлены в цветах, ассоциирующихся с брендом Universal Studios:
График 1. Распределение отзывов по паркам
Диаграмма показывает, как распределены отзывы по локациям. В выборке доминирует Universal Studios Florida — 60,2%, затем Singapore — 30,9%, и заметно меньше Japan — 8,9%.
Это важно как «поясняющий контекст»: любые общие выводы по всему датасету будут сильнее отражать опыт посетителей Флориды просто потому, что отзывов оттуда больше. Для выводов о том, какой парк нравится больше, опора должна быть на доли и средние показатели внутри каждой локации.
График 2. Средний рейтинг каждого парка
Во всех локациях доминируют оценки 4-5 звёзд, низкие оценки 1-2 встречаются существенно реже.
По самому распределению видно, что общий уровень удовлетворённости посетителей высокий во всех трёх парках.
Для выбора локации нужен следующий слой анализа: сравнение доли 5 звёзд и доли 1-2 звёзд в каждом парке.
График 3. Тональность отзыва в зависимости от оценки
Тональность отзывов согласуется с выбором оценки: 5 звёзд чаще связаны с позитивной тональностью, 1 звезда — с негативной, 3 звёзд — со смешанной.
Это подтверждает, что рейтинг отражает содержание текста и подходит как базовая метрика удовлетворённости.
Для практического выбора парка наиболее полезны отзывы со средними оценками: в них чаще фиксируются конкретные причины недовольства и условия, при которых впечатление ухудшается.
График 4. Средний рейтинг по годам
Средняя оценка меняется во времени.
В 2021 году заметно снижение относительно предыдущих лет.
Итоговый выбор локации должен опираться на более свежий период, потому что «средняя оценка за всё время» может отражать временной контекст вместо устойчивого качество парка.
Заключение
Результаты анализа показывают устойчиво высокий уровень удовлетворённости посетителей: распределение оценок во всех локациях смещено к 4-5 звёздам, а тональность текстов согласуется с выставленными рейтингами.
Наиболее репрезентативные данные в выборке представлены по Universal Studios Florida, поэтому именно по этой локации выводы наиболее надёжны.
С опорой на полученные результаты в качестве приоритетной локации для первой поездки выбираю Universal Studios Florida.
Используемые ресурсы