Original size 960x1280

Морфология грибов в зеркале визуализации: от статистических трендов к крити

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Для визуального анализа был выбран

набор данных о грибах, содержащий около 6.7 миллионов строк

, представленный в открытом доступе на платформе Kaggle. Датасет содержит подробные характеристики различных видов грибов, включая их морфологические признаки и среду обитания. Выбор этих данных обусловлен их практической и образовательной ценностью. Проблема классификации грибов на съедобные и ядовитые — это классическая задача анализа данных, которая наглядно демонстрирует, как внешние признаки (цвет, форма, место произрастания) коррелируют с биологической безопасностью.

Выбор этой темы обусловлен не только биологическим интересом, но и желанием исследовать

феномен «дезинфографики»

. В эпоху визуализации данных мы привыкли доверять графикам, однако в случае с грибами статистическая вероятность может быть фатально обманчива. Данный анализ — это размышление о границах применимости визуализации: насколько целесообразно полагаться на «средние показатели» там, где требуется стопроцентная точность? Поиск закономерностей здесь становится опасной игрой, так как в вопросах токсикологии важна не корреляция, а знание конкретного вида.

Для проверки гипотез и демонстрации этих закономерностей были использованы следующие инструменты:

Виды графиков

Круговая диаграмма

: отображает общую пропорцию цветов шляпок в выборке, позволяя оценить визуальное разнообразие грибного мира.

Столбчатая диаграмма

: демонстрирует расчетную вероятность ядовитости в зависимости от цвета шляпки. Это первый шаг к критическому осмыслению: создает ли «статистическая опасность» определенного цвета реальную почву для принятия решений?

Тепловая карта (Heatmap)

: наглядно связывает места произрастания (тропинки, леса, поля) и сезоны с вероятностью встретить ядовитый гриб.

Скрипичный график (Violin plot)

: используется для анализа высоты ножки в зависимости от цвета и ядовитости. Мы выбрали этот тип графика, чтобы увидеть плотность распределения признаков и понять, насколько сильно пересекаются характеристики съедобных и опасных видов.

1. Распределение цветов грибных шляпок

Для анализа пропорций цветов шляпок (признак cap_color) в наборе данных Kaggle Mushroom использовался базовый статистический метод — расчет относительных частот. С помощью библиотеки pandas был применен метод .value_counts () для определения количества грибов каждого из 12 представленных цветов. Далее эти абсолютные значения были преобразованы в относительные частоты (проценты) и визуализированы.

Стилизация графика была выполнена вручную с целью создания «гармоничной палитры», чтобы избежать резких и неприятных глазу цветов, которые могли бы ассоциироваться с опасностью. Была создана пользовательская карта цветов color_map, где каждому буквенному коду цвета гриба (например, 'n' для brown) был присвоен конкретный HEX-код приглушенного, природного оттенка (например, #A47864)

0

Представленная ниже круговая диаграмма дает общее представление о структуре данных. Она является одним из самых простых примеров разведочного анализа данных (Exploratory Data Analysis, EDA) и наглядно показывает, что грибы имеют неравномерное распределение по цветам шляпок. В датасете доминируют несколько основных цветов:

Коричневый (n): 27,4% Бежевый (b): 19,7% Серый/голубой (g): 16,4% Белый (w): 11,2%

Теперь, когда мы определили пропорции, следующим шагом будет анализ связи этих цветов с ядовитостью.

2. Вероятность ядовитости грибов в зависимости от цвета шляпки

0

Данные показывают, что, хотя некоторые цвета (например, серый/голубой, зеленый/красный и фиолетовый) имеют высокую вероятность быть ядовитыми в этом конкретном наборе данных, сам по себе цвет шляпки не является надежным показателем съедобности. Не существует простых, универсальных правил для определения съедобности дикого гриба, так как токсичные виды могут быть даже белыми или коричневыми.

3. Тепловая карта риска

Далее я решила провести более глубокий анализ и изучить, как вероятность ядовитости грибов меняется в зависимости от двух других ключевых параметров: места обитания и сезона. Для этого я использовала тепловую карту (heatmap), которая позволяет наглядно увидеть корреляцию между этими тремя переменными.

Чтобы сделать визуализацию более информативной и отличить ее от стандартных графиков Python, я тщательно подошла к стилизации. Я использовала кастомную палитру mushroom_cmap, основанную на цветах buff (бежевый, безопасно), yellow (желтый, средний риск), orange (оранжевый, высокий риск) и red (красный, опасно), чтобы создать интуитивно понятный градиент риска.

0

Обработав данные и построив тепловую карту, я обнаружила, что риск ядовитости сильно варьируется. Например, наивысшая вероятность ядовитости, составляющая 100%, наблюдается для грибов, растущих на «Отходах» летом, осенью и зимой. Также очень высокий уровень риска (90,0%) присутствует в зоне «Пустоши» летом. Для грибов, обитающих на «Тропинках», риск колеблется от 54,3% весной до 74,4% летом. В траве риск составляет от 36,4% летом до 49,4% осенью.

Примечательно, что низкий риск ядовитости (0,0%) зафиксирован в лесу весной и летом, а также в пустоши весной. Хотя и ежу понятно, что так не может быть.

4. Анатомический профиль: Высота ножки по цветам и классам

Чтобы глубже погрузиться в анатомические особенности грибов, я решила проанализировать взаимосвязь между цветом шляпки, высотой ножки и классом гриба (ядовитый или съедобный) с помощью скрипичного графика (violin plot). Я использовала стилизацию, чтобы сделать график более читабельным и оригинальным: применила кастомную палитру custom_palette, где ядовитые грибы (p) окрашены в ярко-красный цвет (DE1A58), а съедобные (e) — в зеленый (8BAE66). Это позволяет интуитивно различать две группы. Также я задала подписи осей и заголовок с помощью кода, а не редактирования.

0

Обработав данные, я получила интересные выводы о распределении высоты ножки. Я обнаружила, что высота ножки сама по себе не является надежным показателем ядовитости, так как распределения ядовитых и съедобных грибов сильно перекрываются для большинства цветов. Например, у грибов с коричневой шляпкой наблюдается широкое распределение высоты ножки, включающее как съедобные, так и ядовитые образцы, причем у некоторых съедобных ножки достигают почти 40 см в высоту. Ядовитые грибы с бежевой шляпкой также демонстрируют значительную высоту ножки. Тем не менее, для некоторых цветов, таких как синий и зеленый, большая часть выборки является съедобной, что видно по преобладанию зеленого цвета на графике.

Анализ подтверждает, что для точной идентификации гриба необходимо учитывать комплекс признаков, а не полагаться на один параметр. В общем, говоря языком грибников «лучше знать на зубок».

Выводы

Проведенный комплексный разведочный анализ данных (EDA), охватывающий четыре различных визуализации, позволил мне не просто изучить предоставленные данные, но и деконструировать распространенные, но потенциально опасные мифы о сборе грибов.

Миф 1:

Цвет шляпки определяет съедобность. Первоначальный анализ показал неравномерное распределение цветов в датасете. Однако дальнейший анализ вероятности ядовитости по цвету шляпки доказал, что это ненадежный показатель. Например, белый цвет имеет низкий риск, но некоторые ядовитые грибы могут быть белыми.

Вывод: Изоляция одного признака, такого как цвет, в простой инфографике может ввести в заблуждение и является примером потенциальной дезинфографики, если ее использовать как единственное руководство.

Миф 2:

Внешний вид или размер ножки является ключевым. Анализ анатомического профиля (скрипичный график) показал значительное перекрытие высоты ножки между ядовитыми и съедобными грибами для большинства цветов.

Вывод: Визуально похожие грибы могут иметь разный класс. Замер высоты ножки не дает достаточной информации для принятия безопасного решения.

Тепловая карта, связывающая место обитания и сезон с риском, выявила сильные корреляции. Риск в 100% на «Отходах» летом/осенью показывает важность контекста. Примечательно, что низкий риск ядовитости (0,0%) был зафиксирован в лесу весной и летом, а также в пустоши весной. Хотя понятно, что в реальной жизни так быть не может, что указывает на ограничения самого набора данных.

В заключение, анализ демонстрирует, что для безопасного сбора грибов нельзя полагаться на простые, изолированные визуальные признаки или даже на этот конкретный датасет как на абсолютную истину. Необходимо учитывать комплекс признаков, а не полагаться на один параметр. Понятное дело, что при сборе грибов лучше знать наверняка.