Original size 1140x1600

Глобальный анализ инцидентов с акулами

PROTECT STATUS: not protected
The project is taking part in the competition

В новостях, на телепередачах и художественных хоррор-фильмах часто появляется сюжет о нападении акул на человека. Почти всегда они подаются как нечто пугающее и редкое, из-за чего кажется, что океан опасен и непредсказуем. Но так ли это на самом деле?

Мне стало интересно разобраться, насколько часто происходят инциденты с акулами, и где они случаются чаще всего.

big
Original size 4096x2647

Исходя из своего интереса к этой теме, я решила выбрать данные для обработки по этой теме. На kaggle.com я нашла датасет Shark Attacks

Для анализа я выбрала 4 типа визуализаций, каждая из которых нацелена на свою задачу: 1. Линейный график: наглядно показывает рост числа зафиксированных атак с 1950 по 2023 год и общие тренды. 2. Горизонтальная диаграмма для оценки географии: удобна для сравнения стран-лидеров; горизонтальный формат делает длинные названия читаемыми. 3. Круговая диаграмма для исходов нападений: демонстрирует структуру данных и доказывает, что подавляющее большинство встреч не являются летальными. 4. Вертикальная диаграмма для оценки активности пострадавших: позволяет быстро сравнить риски разных видов деятельности и выделить самую опасную группу.

Цветовая палитра, оформление графиков и презентации.

При оформлении цветовой палитры я вдохновлялась предупреждающими знаками опасности (акулы в прибережных зонах). Были использованы черный /0F0E0D и желтый

/F0D044

Original size 1000x1000

Существующий знак об опасности

Затем нужно было загрузить и очистить датасет, а так же загрузить шрифт и библиотеки для создания необходимых графиков.

Original size 892x979

Графики

1// Как менялось количество нападений акул с течением времени?

1// Линейный график иллюстрирует динамику общего количества зафиксированных нападений акул в период с 1950 по 2023 годы, выявляя долгосрочные тренды активности.

Original size 1246x693

Линейный график визуализирующий динамику общего количества зафиксированных нападений акул в период с 1950 по 2023 годы

Original size 794x258

2// В каких странах фиксируется наибольшее количество инцидентов?

2// Горизонтальная столбчатая диаграмма иллюстрирует топ-10 стран по количеству зарегистрированных инцидентов, позволяя сравнить географическое распределение нападений в мире.

Original size 1404x694

Горизонтальная столбчатая диаграмма иллюстрирует топ-10 стран по количеству зарегистрированных инцидентов

Original size 795x320

3// Круговая диаграмма

3// Круговая диаграмма иллюстрирует процентное соотношение летальных исходов и случаев выживания, наглядно демонстрируя реальную степень опасности встреч с акулам

Original size 790x834

Круговая диаграмма иллюстрирует процентное соотношение летальных исходов и случаев выживания

Original size 703x411

4// Вертикальная столбчатая диаграмма

4// Вертикальная столбчатая диаграмма иллюстрирует распределение инцидентов по основным группам деятельности человека в океане, выделяя наиболее рискованные виды водного спорта.

Original size 1263x756

Вертикальная столбчатая диаграмма иллюстрирует распределение инцидентов по основным группам деятельности человека в океан

Original size 809x335

Статистические методы

В ходе статистического анализа данных использовался метод агрегации на основе функции .value_counts () для выявления географических и событийных лидеров по количеству инцидентов. Определение наиболее частотных категорий, таких как приоритетные страны и виды деятельности, осуществлялось через поиск статистической моды. Для повышения точности выводов была проведена очистка данных от «информационного шума»: при расчете наиболее рискованной активности из выборки была намеренно исключена категория «Other», что позволило получить объективные результаты по конкретным видам спорта. Завершающим этапом исследования стал долевой анализ, с помощью которого было рассчитано процентное соотношение выживаемости и летальных исходов в контексте общего числа зафиксированных случаев.

Original size 576x424

Использование нейросетей

Для помощи с кодом была использована нейросеть Gemini.

Write a Python function using Pandas to group them into five main categories: Surfing, Swimming, Fishing, Diving, and Other. Use keyword matching to make it efficient.

Ссылка на google-диск: блокнот с кодом и графиками, датасет.