
В новостях, на телепередачах и художественных хоррор-фильмах часто появляется сюжет о нападении акул на человека. Почти всегда они подаются как нечто пугающее и редкое, из-за чего кажется, что океан опасен и непредсказуем. Но так ли это на самом деле?
Мне стало интересно разобраться, насколько часто происходят инциденты с акулами, и где они случаются чаще всего.

Исходя из своего интереса к этой теме, я решила выбрать данные для обработки по этой теме. На kaggle.com я нашла датасет Shark Attacks
Для анализа я выбрала 4 типа визуализаций, каждая из которых нацелена на свою задачу: 1. Линейный график: наглядно показывает рост числа зафиксированных атак с 1950 по 2023 год и общие тренды. 2. Горизонтальная диаграмма для оценки географии: удобна для сравнения стран-лидеров; горизонтальный формат делает длинные названия читаемыми. 3. Круговая диаграмма для исходов нападений: демонстрирует структуру данных и доказывает, что подавляющее большинство встреч не являются летальными. 4. Вертикальная диаграмма для оценки активности пострадавших: позволяет быстро сравнить риски разных видов деятельности и выделить самую опасную группу.
Цветовая палитра, оформление графиков и презентации.
При оформлении цветовой палитры я вдохновлялась предупреждающими знаками опасности (акулы в прибережных зонах). Были использованы черный /0F0E0D и желтый
/F0D044
Существующий знак об опасности
Затем нужно было загрузить и очистить датасет, а так же загрузить шрифт и библиотеки для создания необходимых графиков.
Графики
1// Как менялось количество нападений акул с течением времени?
1// Линейный график иллюстрирует динамику общего количества зафиксированных нападений акул в период с 1950 по 2023 годы, выявляя долгосрочные тренды активности.
Линейный график визуализирующий динамику общего количества зафиксированных нападений акул в период с 1950 по 2023 годы
2// В каких странах фиксируется наибольшее количество инцидентов?
2// Горизонтальная столбчатая диаграмма иллюстрирует топ-10 стран по количеству зарегистрированных инцидентов, позволяя сравнить географическое распределение нападений в мире.
Горизонтальная столбчатая диаграмма иллюстрирует топ-10 стран по количеству зарегистрированных инцидентов
3// Круговая диаграмма
3// Круговая диаграмма иллюстрирует процентное соотношение летальных исходов и случаев выживания, наглядно демонстрируя реальную степень опасности встреч с акулам
Круговая диаграмма иллюстрирует процентное соотношение летальных исходов и случаев выживания
4// Вертикальная столбчатая диаграмма
4// Вертикальная столбчатая диаграмма иллюстрирует распределение инцидентов по основным группам деятельности человека в океане, выделяя наиболее рискованные виды водного спорта.
Вертикальная столбчатая диаграмма иллюстрирует распределение инцидентов по основным группам деятельности человека в океан
Статистические методы
В ходе статистического анализа данных использовался метод агрегации на основе функции .value_counts () для выявления географических и событийных лидеров по количеству инцидентов. Определение наиболее частотных категорий, таких как приоритетные страны и виды деятельности, осуществлялось через поиск статистической моды. Для повышения точности выводов была проведена очистка данных от «информационного шума»: при расчете наиболее рискованной активности из выборки была намеренно исключена категория «Other», что позволило получить объективные результаты по конкретным видам спорта. Завершающим этапом исследования стал долевой анализ, с помощью которого было рассчитано процентное соотношение выживаемости и летальных исходов в контексте общего числа зафиксированных случаев.
Использование нейросетей
Для помощи с кодом была использована нейросеть Gemini.
Write a Python function using Pandas to group them into five main categories: Surfing, Swimming, Fishing, Diving, and Other. Use keyword matching to make it efficient.
Ссылка на google-диск: блокнот с кодом и графиками, датасет.