
Введение
Для визуального анализа был выбран
Выбор этой темы обусловлен не только биологическим интересом, но и желанием исследовать
Для проверки гипотез и демонстрации этих закономерностей были использованы следующие инструменты:
Виды графиков
1. Распределение цветов грибных шляпок
Для анализа пропорций цветов шляпок (признак cap_color) в наборе данных Kaggle Mushroom использовался базовый статистический метод — расчет относительных частот. С помощью библиотеки pandas был применен метод .value_counts () для определения количества грибов каждого из 12 представленных цветов. Далее эти абсолютные значения были преобразованы в относительные частоты (проценты) и визуализированы.
Стилизация графика была выполнена вручную с целью создания «гармоничной палитры», чтобы избежать резких и неприятных глазу цветов, которые могли бы ассоциироваться с опасностью. Была создана пользовательская карта цветов color_map, где каждому буквенному коду цвета гриба (например, 'n' для brown) был присвоен конкретный HEX-код приглушенного, природного оттенка (например, #A47864)
Представленная ниже круговая диаграмма дает общее представление о структуре данных. Она является одним из самых простых примеров разведочного анализа данных (Exploratory Data Analysis, EDA) и наглядно показывает, что грибы имеют неравномерное распределение по цветам шляпок. В датасете доминируют несколько основных цветов:
Коричневый (n): 27,4% Бежевый (b): 19,7% Серый/голубой (g): 16,4% Белый (w): 11,2%
Теперь, когда мы определили пропорции, следующим шагом будет анализ связи этих цветов с ядовитостью.
2. Вероятность ядовитости грибов в зависимости от цвета шляпки
Данные показывают, что, хотя некоторые цвета (например, серый/голубой, зеленый/красный и фиолетовый) имеют высокую вероятность быть ядовитыми в этом конкретном наборе данных, сам по себе цвет шляпки не является надежным показателем съедобности. Не существует простых, универсальных правил для определения съедобности дикого гриба, так как токсичные виды могут быть даже белыми или коричневыми.
3. Тепловая карта риска
Далее я решила провести более глубокий анализ и изучить, как вероятность ядовитости грибов меняется в зависимости от двух других ключевых параметров: места обитания и сезона. Для этого я использовала тепловую карту (heatmap), которая позволяет наглядно увидеть корреляцию между этими тремя переменными.
Чтобы сделать визуализацию более информативной и отличить ее от стандартных графиков Python, я тщательно подошла к стилизации. Я использовала кастомную палитру mushroom_cmap, основанную на цветах buff (бежевый, безопасно), yellow (желтый, средний риск), orange (оранжевый, высокий риск) и red (красный, опасно), чтобы создать интуитивно понятный градиент риска.
Обработав данные и построив тепловую карту, я обнаружила, что риск ядовитости сильно варьируется. Например, наивысшая вероятность ядовитости, составляющая 100%, наблюдается для грибов, растущих на «Отходах» летом, осенью и зимой. Также очень высокий уровень риска (90,0%) присутствует в зоне «Пустоши» летом. Для грибов, обитающих на «Тропинках», риск колеблется от 54,3% весной до 74,4% летом. В траве риск составляет от 36,4% летом до 49,4% осенью.
Примечательно, что низкий риск ядовитости (0,0%) зафиксирован в лесу весной и летом, а также в пустоши весной. Хотя и ежу понятно, что так не может быть.
4. Анатомический профиль: Высота ножки по цветам и классам
Чтобы глубже погрузиться в анатомические особенности грибов, я решила проанализировать взаимосвязь между цветом шляпки, высотой ножки и классом гриба (ядовитый или съедобный) с помощью скрипичного графика (violin plot). Я использовала стилизацию, чтобы сделать график более читабельным и оригинальным: применила кастомную палитру custom_palette, где ядовитые грибы (p) окрашены в ярко-красный цвет (DE1A58), а съедобные (e) — в зеленый (8BAE66). Это позволяет интуитивно различать две группы. Также я задала подписи осей и заголовок с помощью кода, а не редактирования.
Обработав данные, я получила интересные выводы о распределении высоты ножки. Я обнаружила, что высота ножки сама по себе не является надежным показателем ядовитости, так как распределения ядовитых и съедобных грибов сильно перекрываются для большинства цветов. Например, у грибов с коричневой шляпкой наблюдается широкое распределение высоты ножки, включающее как съедобные, так и ядовитые образцы, причем у некоторых съедобных ножки достигают почти 40 см в высоту. Ядовитые грибы с бежевой шляпкой также демонстрируют значительную высоту ножки. Тем не менее, для некоторых цветов, таких как синий и зеленый, большая часть выборки является съедобной, что видно по преобладанию зеленого цвета на графике.
Анализ подтверждает, что для точной идентификации гриба необходимо учитывать комплекс признаков, а не полагаться на один параметр. В общем, говоря языком грибников «лучше знать на зубок».
Выводы
Проведенный комплексный разведочный анализ данных (EDA), охватывающий четыре различных визуализации, позволил мне не просто изучить предоставленные данные, но и деконструировать распространенные, но потенциально опасные мифы о сборе грибов.
Вывод: Изоляция одного признака, такого как цвет, в простой инфографике может ввести в заблуждение и является примером потенциальной дезинфографики, если ее использовать как единственное руководство.
Вывод: Визуально похожие грибы могут иметь разный класс. Замер высоты ножки не дает достаточной информации для принятия безопасного решения.
Тепловая карта, связывающая место обитания и сезон с риском, выявила сильные корреляции. Риск в 100% на «Отходах» летом/осенью показывает важность контекста. Примечательно, что низкий риск ядовитости (0,0%) был зафиксирован в лесу весной и летом, а также в пустоши весной. Хотя понятно, что в реальной жизни так быть не может, что указывает на ограничения самого набора данных.
В заключение, анализ демонстрирует, что для безопасного сбора грибов нельзя полагаться на простые, изолированные визуальные признаки или даже на этот конкретный датасет как на абсолютную истину. Необходимо учитывать комплекс признаков, а не полагаться на один параметр. Понятное дело, что при сборе грибов лучше знать наверняка.