
В рамках учебного проекта я решила проанализировать диалоги первого сезона мультсериала «Губка Боб Квадратные Штаны». Этот выбор связан с моей личной привязанностью к сериалу — мы часто смотрим его с одногруппниками во время работы, и я считаю, что его уникальный юмор и доброта прошли проверку временем. Мне стало интересно, что можно узнать о структуре и динамике сериала, если взглянуть на него через данные: кто из персонажей говорит больше всех, как строится их речь и как разные сценаристы проявляли себя в работе над эпизодами.

Для анализа я использовала два основных источника данных. Первый датасет содержит полную расшифровку всех реплик первого сезона с указанием персонажей. Второй набор данных был собран мной из Википедии — в нём содержится сопутствующая информация по каждому эпизоду: номер, режиссёр, сценаристы и дата выхода. Объединив эти данные, я могу не только изучать сами диалоги, но и связывать речевые паттерны с конкретными творческими командами, работавшими над сериалом.
Всего у меня получилось 6 графиков четырех разных типов:
— Столбчатая диаграмма — Круговая диаграмма — Облака слов — Тепловая карта

Палитра, вдохновлённая мультфильмом «Губка Боб Квадратные Штаны»
Топ-10 самых болтливых персонажей
Для начала я загрузила файл с репликами и сразу почистила имена персонажей, убрав лишние пробелы, чтобы один и тот же герой не делился на несколько записей. А также установила шрифт troika.
Первое, что я захотела понять — кто из персонажей говорил больше всего.
Отфильтровала служебные строки {system} (это описания действий, а не диалоги). Посчитала, сколько реплик у каждого персонажа. Для наглядности — горизонтальная столбчатая диаграмма: она сразу показывает, кто в лидерах, а кто — на вторых ролях.
График однозначно подтвердил: Спанч Боб — абсолютный лидер. Сквидвард и Патрик образуют с ним основной комедийный треугольник, а остальные герои появляются в более узконаправленных сюжетах.
Кто чаще говорил «Krabby»?
Мне стало интересно: а кто больше всех говорит про крабсбургеры? В оригинале это «Krabby Patty», но поскольку слово patty может иметь разные формы, я решила фокусироваться на слове «Krabby» — в других контекстах оно редко встречается.
Нашла все реплики с этим словом, сгруппировала по персонажам и посчитала. На круговой диаграмме легко считывается кто больше использовал это слово.
Лидерство Спанч Боба логично, но интересно было узнать, что Планктон и Мистер Крабс говорят о крабсбургерах в равной степени.
Диалоги vs Действия
Я решила посмотреть на структуру серий: в каких эпизодах больше динамики и действий, а где — разговоры. Есть ли эпизоды, которые выбиваются из общего рисунка? Чтобы понять это, я пометила каждую строку как Dialogue или Action и с помощью crosstab посмотрела баланс по сериям. Сложенная столбчатая диаграмма хороша тем, что сразу видно — где больше слов, а где — сценических описаний.
Вывод оказался довольно однозначным: в серии диалогов явно больше. Это говорит о том, что юмор мультсериала во многом строится на словах и взаимодействии персонажей, а не на визуальных гэг-ситуациях.
У кого богаче словарь?
Меня зацепил ещё один вопрос: совпадает ли говорливость с богатством речи? То есть: много говорит — значит, разнообразно говорит? Или кто-то мало, но ярко?
Чтобы анализировать словарный запас или строить облака слов, текст нужно почистить. Знаки препинания и служебные слова только мешают. Этот этап — техническая подготовка, без которой следующие шаги невозможны.
Для каждого персонажа из топа я собрала весь его очищенный текст в одну строку, разбила на слова и оставила только уникальные. Количество элементов в этом множестве — это и есть размер словарного запаса.
Здесь обнаружен важный нюанс: частота реплик не равна богатству лексики. Патрик, хоть и в тройке самых говорливых, использует очень ограниченный набор слов — это отражает его простоту. А мистер Крабс и Сквидвард, напротив, говорят реже, но более образно — у них богаче лексика, что логично с точки зрения их персонажей.
Облака слов — портреты персонажей
Чтобы дать наглядную, визуальную характеристику персонажам, я сгенерировала облака слов для трёх главных героев: Спанч Боба, Патрика и Сквидварда. WordCloud автоматически масштабирует слова по частоте — большой размер слова = высокая частота.
Облака слов служат лингвистическими портретами. У Спанч Боба облако самое плотное: имена других героев, много активных глаголов — визуализация его гиперобщительности. Облако Патрика мало и сосредоточено вокруг «SpongeBob», «go» и «know» — отражение его зависимости от друга и простого взгляда на мир. А облако Сквидварда — это собрание раздражённых обращений и негативных оценок, чётко рисующее образ вечно недовольного мизантропа. Данные буквально показывают их характеры через язык.
Кому какой герой ближе?
Самая увлекательная часть для меня — попытка связать каждую фразу с тем, кто её написал.
У каждого автора может быть своя манера и свои предпочтения. Мне хотелось это проверить и наглядно показать.
На основе объединённой таблицы я построила матрицу «сценарист — персонаж» через crosstab: в ячейках — число реплик. Тепловая карта — идеальный способ визуализировать такие данные: по насыщенности цвета и цифрам сразу видно, кто кому отдает предпочтение.
Тепловая карта позволила заглянуть за кулисы сериала и увидеть авторские почерки. Стало очевидно, что у каждого сценариста есть свои фавориты. Например, Даг Лоуренс явно любит пару Спанч Боб—Сквидвард, поручая им максимальное число реплик и создавая основу для их вечного противостояния. Пол Тиббит, напротив, в своих эпизодах немного смещает фокус с главного героя, давая больше простора другим персонажам. Это доказывает, что даже в рамках единого стиля сериала разные писатели незримо влияют на то, чей голос в конкретной серии звучит громче.
Заключение
Что меня особенно порадовало: цифры и визуализации подтвердили и то, что я и так чувствовала, и принесли новые детали. Спанч Боб — безоговорочный лидер. Вместе со Сквидвардом и Патриком он формирует центр комедийной динамики. У Патрика — очень бедный словарь; у мистера Крабса и Сквидварда — богатая, образная лексика; облака слов чётко рисуют их характеры. Анализ также позволил заглянуть за кулисы, показав, как разные сценаристы, оставаясь в рамках единого стиля, незримо расставляют свои акценты, выделяя разных любимчиков.
В итоге проект наглядно показал: даже самый сюрреалистичный и детский на вид юмор опирается на чёткие структуры и закономерности. Мне было приятно видеть, как данные помогают расшифровать то, что на экране кажется простым и естественным.
При создании проекта использовалась модель DeepSeek для составления общего стиля проекта и внедрение палитры в код.
А также сервис https://carbon.now.sh для создания картинок с кодом.