Original size 864x1152

Анализ лексики сериала Stranger things

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

Вводная часть

«Очень странные дела» — сериал, существующий уже почти 10 лет, но обретший особую популярность в последние 3 года и ставший практически культовым. Я сама с детства вовлечена в эту невероятную мистическую ретро атмосферу сериала, я многократно его пересматривала, каждый раз подмечая всё новые и новые детали.

Мне захотелось узнать, какими словами оперируют герои, как их лексикон меняется с течением времени и в зависимости от ситуации. Сами герои на протяжении всего сериала заметно растут и меняются, что точно должно отразиться на их словарном запасе.

big
Original size 3000x990

За основу для создания датасета были взяты файлы субтитров сериала «Очень странные дела» в формате srt, скачанные с сайта TVsubtitles.net. Были скачаны субтитры на английском языке. Эти файлы содержат все реплики, озвученные героями сериала, с указанием временной метки.

В ходе анализа датасетов я выбрала следующие виды графиков, поскольку посчитала их наиболее подходящими и наглядными:

Облако слов Круговая диаграмма Линейный график Столбчатый график

Для работы программы необходимо указать путь к каталогу с файлами субтитров. На выходе получим файл subtitles_dataset.csv. Из полученного файла вручную была удалена лишняя информация (данные об авторах, теги для форматирования текста и т. д.).

big
Original size 1312x736

Оформление графиков

Все графики представлены в едином стиле, рифмующемся с визуалом сериала Stranger Things. В цветовую палитру вошли приглушенный красный, серый и белый.

В оформлении графиков мне хотелось добиться современного, минималистичного стиля, отсылающего к годам событий сериала. Средствами python были выполнены сами графики, сверху в Photoshop был наложен шум для соответствия ретро стилистике.

Original size 1600x402

Столбчатая диаграмма: количество реплик по сезонам

График показывает объём диалоговой активности в каждом сезоне. Чем выше столбец, тем больше реплик произнесено персонажами в этом сезоне.

Original size 1968x1161

Реализация

Для каждой категории (сезон 1, сезон 2, …) подсчитывается абсолютная частота — сколько раз встречается реплика.

Данные группируются по переменной season. Применяется агрегирующая функция size () — суммарное количество строк (реплик) в группе.

Original size 1404x936

Чтение данных, подсчет реплик по сезонам, стилизация, создание столбцов

Original size 1404x1188

Линии, подписи значений

Сериал не теряет диалоговой плотности со временем — напротив, рост количества реплик может свидетельствовать о развитии характеров и усложнении отношений. Если бы количество реплик падало, то это могло бы указывать на смещение акцента в сторону визуального хоррора или боевых сцен. То есть рост числа реплик в более поздних сезонах указывает на эволюцию сценария: от простого детского хоррора к сложной драме с множеством персонажей и сюжетных линий.

Линейный график: средняя длина реплики по сезонам

График показывает, насколько многословны персонажи в каждом сезоне. Рост средней длины означает, что персонажи говорят более развёрнуто: дают объяснения, ведут дискуссии, выражают сложные эмоции. Снижение длины же означает, что речь становится более фрагментарной: доминируют крики, команды, короткие фразы в погонях и битвах.

Original size 1968x1161

Увеличение длины реплик коррелирует с эмоциональной и когнитивной зрелостью персонажей. Дети говорят коротко, подростки — развернуто.

Original size 1792x628

Загрузка данных и группировка по сезонам, оформление

В сезонах со сложным научным или мистическим сюжетом реплики длиннее — нужны экспозиция и пояснения.

Original size 1792x1748

Высчитывание количества слов и символов в реплике

Короткие реплики — динамичный ритм, напряжение. Длинные реплики — драматические сцены, внутренние монологи, развитие отношений.

Линейный график 2: эмоциональная динамика по эпизодам

Original size 3173x1366

Каждой реплике присваивается полярность эмоциональной окраски — число от —1 (максимально негативный) до +1 (максимально позитивный).

Сериал следует классической драматургической структуре: надежда — угроза — кризис — развязка. Это видно по чередованию зелёных и красных волн. В ранних сезонах чаще позитив, в поздних же, с течением взросления персонажей, растет и негатив.

Original size 1538x1113

Загрузка, чтение данных, стилизация и присваивание эмоциональной окраски

Original size 1538x1424

Линии, подписи

Линейчатая диаграмма: активность персонажей по упоминаниям имён

Original size 2368x1563

Рост числа упоминаний нового персонажа сигнализирует о появлении новой угрозы. Падение упоминаний ранее ключевого персонажа отражает его физическую или нарративную изоляцию. Персонаж может мало говорить, но часто упоминаться (например, Демогоргон). Это помогает выявить «невидимых» антагонистов.

Original size 1396x2118

Линейная диаграмма 2: снижение количества обращений к родителям

Original size 1968x1163

Высокая частота в первом сезоне говорит о том, что герои — дети, обращающиеся к взрослым за помощью, защитой, разрешением.

Постепенное снижение же говорит о том, что герои берут ответственность на себя, скрывают правду от родителей, принимают решения самостоятельно.

Герои в 3 сезоне и дальше — подростки, для которых родители — не источник безопасности, а препятствие.

Снижение обращений к родителям — не просто деталь, а движущая сила сюжета: именно из-за того, что дети молчат, угроза разрастается.

0

Облако слов: подсчет самых часто встречаемых слов

Такой график является одним из самых наглядных способов проанализировать лексику сериала.

Original size 2266x1509

Облако частотности слов в сериале «Очень странные дела»

Я убрала из списка односложные, короткие слова и части базовых грамматических конструкций, чтобы оставить только более менее уникальный и интересный список.

Самые частые слова всё-таки относятся к глаголам, двигающим сюжет: герои много думают, о многом узнают, постоянно куда-то идут.

Остальные слова чаще всего помогают героям выразить чувства и переживания, что говорит о том, что в сериале достаточно много эмоционального аспекта.

Original size 1656x1085

Загрузка стоп-слов, загрузка данных, цветовое оформление

Original size 1656x1223

Генерация облака

Круговая диаграмма: отношение неологизмов к обычным словам

Original size 1252x1237

График показывает степень «фантазийности» лексики. Высокая доля неологизмов говорит о том, что сезон насыщен новыми концепциями, угрозами, мифологией. Низкая доля — о том, что сезон реалистичнее, с фокусом на человеческих отношениях и повседневности.

0

1. Загрузка ресурсов, создание папки для графиков. 2. Построение диаграммы. 3. Сбор статистики

Заключение

Практически каждый примененный способ анализа базы данных доказал, что герои сериала постепенно взрослеют, набираются опыта, мыслят сложнее.

Достаточно большое количество неологизмов создает у сериала уникальную и очень притягательную атмосферу погружения в детское приключение, в игровой боевик или хоррор.

Описание применения генеративной модели

Ideogram — генерация обложки и нескольких изображений Chat GPT — обращения с целью генерации инструкций и рекомендаций по улучшению кода, вопросы по тому, как правильно имплементировать те или иные функции, библиотеки и т.д) Adobe Color — генерация цветовой палитры и ее редактирование на основе загруженного изображения