
Введение
Я обнаружила интересные данные о котах и кошках на платформе Kaggle. При выборе домашнего питомца часто можно растеряться из-за многообразия пород и их особенностей. Однако, проанализировав эту информацию, можно значительно сузить круг поиска и найти именно того пушистого друга, который идеально подойдет именно вам. В предоставленной таблице содержится широкий спектр пород с их ключевыми характеристиками, которые помогут сделать осознанный выбор:
1. Возраст — один из важнейших факторов, определяющих уровень активности, способность к адаптации и общее состояние здоровья питомца. 2. Вес — показатель, отражающий не только физический размер, но и здоровье животного. 3. Цвет — эстетическая составляющая, которая помогает выбрать кота или кошку по вашему вкусу и предпочтениям. 4. Пол — влияет на особенности поведения и характер, что также важно учитывать при выборе питомца.
Таким образом, этот анализ поможет вам не просто выбрать кота, а найти именно того, кто станет настоящим другом и гармонично впишется в ваш дом.
Для визуализации я выбрала мягкие, но не тусклые цвета. Хотелось сохранить ощущение яркости и радости появления нового питомца, избегая чрезмерно насыщенных и агрессивных оттенков.

Распределение по возрастным группам

Для того чтобы создать эту диаграмму я создала возрастные группы:
age_bins = [0, 3, 7, 12, 15, 20] age_labels = ['Котята\n (0-3 года)', 'Молодые\n (4-7 лет)', 'Взрослые\n (8-12 лет)', 'Зрелые\n (13-15 лет)', 'Пожилые\n (16+ лет)']
Путём группировки и анализа эимх данных инфографика наглядно демонстрирует распределение кошек по жизненным этапам и позволяет ответить на вопрос о том, какая возрастная группа является преобладающей. Выбор данного типа графика обусловлен тем, что он идеально подходит для отображения частей целого и даёт чёткое представление о доле каждой возрастной категории. Благодаря различию в размерах секторов легко сравнить пропорции и сразу определить наиболее многочисленную группу, что делает визуальное восприятие информации интуитивным и удобным.
В основе анализа лежат методы частотного анализа, предполагающие подсчёт количества кошек в каждой возрастной категории, а также категоризация данных, при которой непрерывные значения возраста были сгруппированы в возрастные группы, процентное распределение, Такой подход обеспечивает структурированное представление информации и повышает наглядность полученных результатов.
Распределение веса
Гистограмма позволяет проанализировать распределение веса кошек и определить, какие значения встречаются наиболее часто. С её помощью можно выявить наличие выбросов, таких как слишком лёгкие или, наоборот, чрезмерно тяжёлые особи, а также оценить общую форму распределения — является ли оно нормальным, скошенным или бимодальным.
Именно поэтому данный тип графика был выбран для анализа. Он наглядно отражает форму распределения данных, позволяет визуально определить модальные значения и показывает степень разброса, поскольку ширина и протяжённость гистограммы характеризуют вариативность веса.
В ходе анализа были использованы статистические методы, включающие правило Стёрджеса для определения оптимального количества интервалов при большом объёме данных, а также визуальную проверку распределения на нормальность и частотный анализ,
Распределение возраста
Для анализа распределения возраста кошек была использована гистограмма, поскольку она наглядно отображает возрастную структуру популяции и позволяет сделать обоснованные выводы. В рамках анализа выделяются основные возрастные группы. Молодые кошки в возрасте до трёх лет, как правило, отличаются высокой активностью и игривостью, что предполагает долгий период совместной жизни, однако такие животные требуют больше внимания и воспитания. Взрослые кошки в возрасте от четырёх до двенадцати лет обладают уже сформированным характером и, как правило, более спокойны, хотя могут сохранять привычки, приобретённые у предыдущих владельцев. Пожилые кошки старше тринадцати лет отличаются наибольшей степенью спокойствия и реже проявляют разрушительное поведение, но при этом могут иметь возрастные проблемы со здоровьем.
Использование гистограммы позволяет определить, какая возрастная группа преобладает в выборке, выявить общее соотношение молодых и пожилых животных, а также обнаружить возможные аномалии или разрывы в возрастном распределении. Данный тип графика показывает частотное распределение данных, то есть количество кошек в каждом возрастном интервале.
В процессе анализа также применялись статистические методы нанесения данных на интервальную шкалу, частотного анализа, обеспечивающие корректную структуризацию и достоверность полученных выводов и визуальную проверку.
Распределение по полу
Далее для создания инфографики распределения животных по полу была использована горизонтальная столбчатая диаграмма, так как она наглядно отражает структуру выборки по гендерному признаку. Такой способ визуализации позволяет определить соотношение котов и кошек, выявить, преобладает ли один пол над другим, а также оценить степень сбалансированности популяции.
Выбор именно этого типа графика обусловлен его удобством для прямого сравнения двух категорий, что делает его оптимальным решением для данных, имеющих всего два возможных значения.
В ходе анализа были применены методы частотного анализа, вычисления пропорций и процентных соотношений, а также анализ категориального распределения, что позволило получить наглядные и обоснованные выводы о структуре выборки по полу.
Распределение по цветам
Я использовала древовидную карту для визуализации распределения цветов у животных. Этот метод позволяет наглядно сравнивать доли категорий, сразу видно, какая окраска преобладает, а какая встречается реже, что особенно удобно для отображения значительных различий между переменными. С помощью такой визуализации можно понять, какой цвет кошек наиболее распространён и насколько редок трёхцветный окрас.
В анализе были использованы базовые статистические методы: частотный анализ для подсчёта количества животных в каждой категории, пропорциональный анализ для вычисления долей относительно общего числа, а также визуальное представление пропорций через прямоугольники, размеры которых соответствуют частоте каждой категории.
Заключение
В ходе работы я научились основам анализа данных, созданию инфографики с помощью кода.
Изучая исходные данные я узнала:
1. Возрастное распределение — какие возрастные группы преобладают: взрослые (8 — 12 лет) 2. Весовая характеристика — типичный вес (самый высокий столбец): примерно 5кг 3. Возрастная характеристика — типичный возраст (самый высокий столбец): примерно 16 лет 4. Гендерный состав — соотношение котов и кошек: котов больше 5. Цветовое разнообразие — распространенность окрасов: трехцветных и серых меньше чем «других» окрасов
Примирение генеративных моделей
Я использовала Google gemini: Nano Banana Pro для генерации обложки в нужном мне стиле, затем Chat-GPT/ GPT Image изменил картинку согласно моим правкам. DeepSeek AI помогал с кодом: исправлял ошибки, подсказывал лучшие варианты кода.