Original size 1140x1600

Анализ популярных кличек для собак

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Выбор клички для домашнего животного является повседневной практикой, которая редко осмысляется как объект анализа, однако отражает культурные предпочтения, языковые тенденции и влияние массовой культуры. Имена домашних животных формируются не случайно и со временем меняются, реагируя на моду, медиа и социальный контекст. Несмотря на это, клички практически не рассматриваются как данные, способные показать устойчивые и изменяющиеся паттерны в поведении владельцев.

В данном проекте анализируются открытые статистические данные о кличках домашних животных, зарегистрированных в городских реестрах. Датасет содержит информацию об имени животного, его поле и годе регистрации, что позволяет рассмотреть распределение популярных кличек, проследить их динамику по годам и выявить различия в выборе имён в зависимости от пола животного. Такой подход позволяет перейти от субъективного восприятия имён к системному анализу повторяющихся закономерностей.

Выбор данных и источник

Для анализа был использован датасет NYC Dog Names, доступный на платформе Kaggle и основанный на данных лицензирования собак в городе Нью-Йорк. Датасет содержит информацию о зарегистрированных домашних животных, включая их клички, пол, год регистрации, а также дополнительные атрибуты, связанные с породой и районом проживания. Использование официального городского реестра обеспечивает достаточную репрезентативность данных и позволяет рассматривать клички как массовое явление, а не отдельные индивидуальные случаи.

Выбор данного датасета обусловлен его масштабом и временным охватом, что позволяет анализировать не только самые популярные клички, но и изменения их распространённости с течением времени. Наличие информации о поле животного делает возможным сравнение гендерных различий в выборе имён. Для корректности анализа из датасета были исключены записи с отсутствующими значениями и нерелевантными категориями, что позволило сосредоточиться на устойчивых и повторяющихся паттернах в данных.

Выбранные типы визуализаций и их обоснование

Горизонтальные столбчатые диаграммы. Используются для отображения топ-10 наиболее популярных кличек за весь период наблюдений. Горизонтальная ориентация упрощает считывание длинных названий имён и позволяет быстро сравнивать их относительную частоту.

Гистограмма. Отображает распределение кличек по частоте встречаемости и позволяет увидеть, какие имена используются массово, а какие относятся к редким и уникальным случаям.

Круговая диаграмма. Показывает соотношение регистраций топ-10 самых популярных кличек собак и всех остальных имён в датасете. Такой формат позволяет наглядно проследить динамику распространённости имён.

Столбчатая диаграмма по полу животного. Демонстрирует распределение популярных кличек в зависимости от пола животного. Такой тип визуализации наглядно показывает различия между «мужскими», «женскими» и универсальными именами.

Original size 1436x348

Визуальный стиль проекта выстроен вокруг сдержанной, но выразительной цветовой палитры, которая поддерживает аналитический характер исследования и одновременно сохраняет лёгкое, нейтральное настроение, соответствующее теме повседневных практик. Основным цветом выбран тёмный фиолетовый (#504E76), который используется для заголовков, ключевых подписей и основных графических элементов. Этот цвет ассоциируется со спокойствием, структурностью и аналитикой, не перегружая визуальное восприятие и позволяя сосредоточиться на данных.

В качестве дополнительных цветов используются спокойный светло-зелёный (A3B565) и насыщенный оранжевый (F1642E). Светло-зелёный применяется для второстепенных элементов и фоновых акцентов, создавая ощущение баланса. Оранжевый используется точечно для выделения отдельных значений, пиков популярности или акцентных элементов на графиках. Такое сочетание позволяет выстроить иерархию данных, избегая излишней яркости и сохраняя визуальную цельность проекта.

Original size 2106x393

Для обложки проекта я использовала генеративную модель изображений Midjourney v.7

Промт: Create an image of a Labrador Retriever like the one in the picture, with a background color of A3B565, with an orange collar of F1642E, where on the collar is a tag with the dog’s name Rocky

Картинка прописанная в промте, это фото моей собаки, чья кличка входит в топ 5 популярных имен из анализа данных

Столбчатая диаграмма

Горизонтальная столбчатая диаграмма используется для отображения наиболее популярных кличек собак. Такой формат позволяет удобно сравнивать частоту встречаемости имён и облегчает считывание данных.

0

Цветовая кодировка отражает уровни популярности кличек. Лидирующие имена Bella и Max выделены акцентным цветом, группа устойчиво популярных кличек (Charlie, Coco, Rocky, Lola) обозначена основным цветом, а остальные значения вторичным. Такой подход позволяет визуально разделить категории популярности и упростить интерпретацию данных.

Original size 1024x598

Столбчатая диаграмма позволяет выявить выраженную концентрацию популярности среди ограниченного числа кличек. Лидирующие имена значительно превосходят остальные по количеству регистраций, что указывает на склонность владельцев выбирать знакомые и универсальные клички. Даже внутри топ-10 сохраняется иерархия популярности

Гистограмма

Гистограмма визуализирует общее распределение популярности кличек в датасете и демонстрирует разницу между массово используемыми именами и редкими, индивидуальными вариантами. Использование логарифмической шкалы помогает избежать искажения данных, связанного с наличием небольшого числа крайне популярных кличек.

0

На данном графике представлена гистограмма распределения кличек собак по количеству регистраций. По оси X отложено количество регистраций одной клички, использована логарифмическая шкала, что позволяет корректно отобразить как редкие, так и наиболее популярные имена. По оси Y показано количество уникальных кличек, имеющих соответствующее число регистраций.

Original size 1536x1024

Анализ распределения показывает, что подавляющее большинство кличек собак встречается крайне редко и имеет небольшое количество регистраций. В то же время существует ограниченное число имён, которые значительно выделяются по частоте использования и регистрируются сотнями или тысячами раз. Такое распределение указывает на наличие эффекта длинного хвоста

Круговая диаграмма

На данном графике представлена круговая диаграмма, отражающая соотношение регистраций топ-10 самых популярных кличек собак и всех остальных имён в датасете. Диаграмма показывает долю, которую занимают наиболее распространённые клички, по сравнению с совокупностью редких и уникальных имён.

0

Такой формат визуализации позволяет наглядно оценить степень концентрации популярности и понять, насколько сильно отдельные клички доминируют в общем массиве данных.

График демонстрирует, что топ-10 самых популярных кличек занимает значительную долю всех регистраций, несмотря на то что общее количество уникальных имён в датасете значительно больше. Это подтверждает наличие выраженного эффекта популярности, при котором небольшое число имён используется массово.

Одновременно с этим большая часть кличек относится к категории редких, что указывает на стремление владельцев к индивидуальности при выборе имени для питомца. Таким образом, в данных прослеживается баланс между массовыми трендами и редким и креативном выборе кличек.

Столбчатая диаграмма

На данном графике представлена столбчатая диаграмма, отражающая распределение регистраций популярных кличек собак по полу. Клички из топ-10 были условно классифицированы на мужские, женские и универсальные на основе распространённой практики использования имён. По оси X отображены категории пола, по оси Y суммарное количество регистраций соответствующих кличек.

Визуализация позволяет сравнить, какие группы имён преобладают среди наиболее популярных кличек и как распределяется выбор имён в зависимости от пола животного.

0

Анализ показывает, что среди наиболее популярных кличек присутствуют как ярко выраженные мужские и женские имена, так и универсальные варианты, используемые независимо от пола собаки. При этом каждая категория занимает значимую долю регистраций, что указывает на отсутствие жёсткого доминирования одной группы.

Original size 1536x1024

Наличие универсальных кличек среди лидеров популярности может свидетельствовать о стремлении владельцев выбирать нейтральные и легко воспринимаемые имена. В целом распределение подчёркивает разнообразие подходов к выбору кличек и дополняет предыдущие графики.

Вывод

В рамках проекта был проведён анализ датасета с регистрациями кличек собак, целью которого было выявление паттернов популярности и редкости имён домашних животных. С помощью методов описательной статистики и визуализации данных удалось рассмотреть как наиболее распространённые клички, так и структуру всего распределения имён.

Анализ показал, что популярность кличек распределена неравномерно: небольшое количество имён формирует значительную долю всех регистраций, тогда как большинство кличек встречается редко. Это подтверждает наличие эффекта концентрации, при котором лидирующие имена значительно опережают остальные по частоте использования.

Одновременно с этим данные демонстрируют высокую степень разнообразия: помимо популярных кличек, в выборке присутствует большое количество редких и уникальных имён. Это указывает на сосуществование двух стратегий именования следование массовым трендам и стремление к индивидуальности.

Описание применения генеративной модели

В работе над данным проектом использовались генеративные модели в качестве вспомогательных инструментов на разных этапах исследования. Языковая модель ChatGPT применялась для поддержки аналитического процесса: она помогала структурировать этапы работы с датасетом, формулировать логику анализа, а также уточнять и упрощать код для обработки данных.

Для создания иллюстративных изображений в проекте использовалась генеративная модель Midjourney. На основе текстовых промптов были сгенерированы иллюстрации.

Изображение 1. Промпт: A minimalistic product photo of a blue leather dog collar with soft padding, placed on a solid orange background (#F16F33). The collar has a gold metal buckle, a gold D-ring, and a bone-shaped gold name tag engraved with the name «Bella» and small paw prints. Studio lighting, soft shadows, high detail, clean composition, sharp focus, premium product photography, realistic materials, no text, no watermark.

Изображение 2. Промпт: A clean studio product photo of a large pile of gold bone-shaped dog ID tags stacked together on a pure white background. Each tag is polished metal with engraved dog names such as Rocky, Daisy, Buddy, Lucy, Lucky, and Lola, decorated with small paw print icons. The tags are attached to small gold key rings and arranged in a natural overlapping pile, creating a sense of abundance. Soft diffused lighting, subtle shadows, high detail, sharp focus, realistic metallic reflections, premium pet accessory photography, minimalistic composition, no watermark.

Изображение 3. Промпт: A studio portrait of three dogs sitting side by side against a solid pastel blue background (F16F33) or deep blue-purple (#5B5981) with a gold bone-shaped name tag. The name tags are engraved with «Max», «Charlie», and «Coco», each with small paw print icons. Soft studio lighting, clean background, high detail fur texture, realistic colors, sharp focus, premium pet product photography, no text, no watermark