Original size 1710x2400

Анализ стоимости медицинской страховки

PROTECT STATUS: not protected
The project is taking part in the competition

ВВЕДЕНИЕ

Медицинская страховка — это вещь, за которую мы платим каждый год, надеясь, что она вообще не пригодится. При этом стоимость полиса может отличаться в десятки раз: кто-то платит около тысячи долларов в год, а кто-то больше шестидесяти тысяч. В этом проекте мне стало интересно разобраться, от чего на самом деле зависит цена медицинской страховки и какие факторы оказываются решающими.

Для анализа я использовала датасет с Kaggle, содержащий 1338 страховых полисов. В данных есть информация о возрасте, поле, индексе массы тела (BMI), количестве детей, регионе проживания, статусе курения и итоговой стоимости страховки. Этот датасет хорошо подходит для анализа, потому что он достаточно объёмный и включает сразу несколько параметров, которые потенциально могут влиять на цену.

ЭТАПЫ РАБОТЫ

Типы диаграмм использованные в проекте:

  1. Столбчатая диаграмма
  2. Точечная диаграмма
  3. Круговая диаграмма
  4. Горизонтальная столбчатая диаграмма
big
Original size 1647x141

Для всех графиков была выбрана единая цветовая палитра в медицинском стиле. Зелёные оттенки ассоциируются со здоровьем и низкими рисками, поэтому используются для некурящих и более «безопасных» значений. Красный цвет намеренно выделяет курильщиков и зоны повышенной стоимости, как визуальный сигнал опасности. Все цвета и стили заданы напрямую в коде, без постобработки в графических редакторах, чтобы сохранить целостность визуального языка проекта.

big
Original size 1379x847

Страховая стоимость по регионам

Original size 989x590
Original size 2055x1323

Первым шагом я посмотрела, как меняется средняя стоимость страховки в зависимости от региона проживания. Оказалось, что самый дорогой регион Юго-восток. При этом остальные регионы показывают довольно близкие значения, без резких скачков. Это позволяет сделать вывод, что регион действительно влияет на стоимость, но не является ключевым фактором и скорее играет второстепенную роль.

Зависимость стоимости от возраста и курения

Original size 1189x690
Original size 2740x1324

Далее я проанализировала зависимость стоимости страховки от возраста, отдельно выделив курильщиков и некурильщиков. На графике хорошо видно, что с возрастом страховка дорожает у всех, что вполне логично. Однако разница между курильщиками и некурильщиками оказывается гораздо сильнее, чем влияние возраста. Курильщики платят заметно больше уже в молодом возрасте, а с годами этот разрыв только увеличивается. Более того, некоторые молодые курильщики платят больше, чем пожилые некурящие люди. Это сразу даёт понять, насколько сильно страховые компании закладывают риски, связанные с курением.

Распределение по количеству детей

Original size 970x989
Original size 2740x1332

Чтобы лучше понять структуру выборки, я отдельно посмотрела на распределение по количеству детей. Самая большая группа в датасете люди без детей. Большинство застрахованных имеют от одного до двух детей, а семьи с четырьмя или пятью детьми встречаются довольно редко. Этот график скорее помогает понять демографию данных, чем напрямую объясняет цену страховки, так как количество детей не показывает резкого влияния на итоговую стоимость.

Средняя стоимость страховки: курящие vs некурящие

Original size 987x490
Original size 2740x1730

Самый показательный график проекта это сравнение средней стоимости страховки у курильщиков и некурильщиков. Разница здесь оказывается колоссальной: в среднем курильщики платят почти в четыре раза больше. Разрыв составляет около 23 тысяч долларов, что эквивалентно росту примерно на 280%. Это самый сильный эффект среди всех рассмотренных факторов, и именно он определяет стоимость страховки в наибольшей степени.

Зависимость стоимости от BMI

Original size 1189x690
Original size 2758x1372

В последнем графике я посмотрела, как на цену влияет BMI (индекс массы тела). Для наглядности на графике отмечены границы нормы и ожирения. У некурильщиков рост BMI приводит к умеренному увеличению стоимости страховки. Но у курильщиков с BMI выше 30 ситуация меняется радикально стоимость резко возрастает и формирует самые дорогие страховые полисы в выборке. Таким образом, становится понятно, что BMI сам по себе важен, но в сочетании с курением он превращается в критический фактор.

Вывод

В итоге можно сделать вывод, что главный фактор, влияющий на стоимость медицинской страховки это курение. Возраст и BMI усиливают этот эффект, а регион проживания и количество детей оказывают значительно меньшее влияние. Проще говоря, самый дорогой профиль это курящий человек старшего возраста с высоким BMI, а самый дешёвый молодой некурящий с нормальным индексом массы тела.