

Описание
Для проекта я искала бесплатный датасет на темы о состоянии здоровья. Наиболее интересным мне показался датасет «Sleep Health and Lifestyle Dataset», который я нашла на платформе Kaggle. В нём собрана информация о сне и образе жизни людей: сколько часов они спят, насколько хорошо они оценивают качество сна, уровень стресса, физическая активность, профессия и наличие расстройств сна.
Данные представлены в табличном формате, поэтому их удобно анализировать с помощью Python и библиотеки Pandas.
Тема сна мне показалась близкой и понятной, потому что с нехваткой сна и стрессом сталкиваются почти все. Качество сна сильно влияет на самочувствие, работоспособность и общее состояние человека, но в повседневной жизни этому часто не уделяют внимания.
Анализируя эти данные, было интересно посмотреть:
1 — как сон связан с уровнем стресса
2 — влияет ли физическая активность на качество сна
3 — отличаются ли показатели сна у людей разных профессий
Этот датасет полезен тем, что позволяет наглядно показать реальные зависимости, которые можно применить в жизни.
Для визуализации данных я использовала разные типы графиков, чтобы каждый из них отвечал на свой вопрос.
Гистограммы помогли понять, как распределены показатели сна. Столбчатые диаграммы — сравнить средние значения между профессиями и группами. Boxplot и violin-графики показали разброс данных и влияние стресса и расстройств сна. Scatter-графики использовались для поиска связей между физической активностью, стрессом и качеством сна. Также были использованы круговые диаграммы и тепловая карта корреляций.
(0) Этапы работы
Для проекта я выбрала неоновую палитру, у меня была стойкая ассоциация с световым шумом города, который мешает спать. Целью было сделать графики не только информативными, но и визуально привлекательными. Вдохновением послужили современные инфографики и дашборды в стиле Spotify Wrapped и визуализации с платформ Behance и Dribbble.
цветовая палитра и стилизация
Работа с данными началась с загрузки датасета и его первичного просмотра.
Далее были выполнены следующие шаги:
1. проверка данных на пропущенные значения 2. удаление строк с пропусками, чтобы анализ был корректным 3. получение базовой описательной статистики (средние значения, минимумы и максимумы)
Для этого использовались стандартные методы библиотеки Pandas, такие как info (), describe () и dropna ().
(01) Распределение продолжительности сна
(1) Гистограмма
На графике видно, как распределяются часы сна у людей. Большинство спит около 6–8 часов. Гистограмма идеально подходит для числовых данных, потому что сразу показывает частоту и основные тенденции.
(02) Качество сна по полу
(2) Violin plot
График показывает, как мужчины и женщины оценивают качество сна. Видно, что у женщин чуть больше средних и высоких оценок, а у мужчин встречаются низкие значения. Violin plot выбран, чтобы видеть и разброс, и плотность данных внутри каждой группы, что обычный boxplot не показывает полностью.
(03) Средняя продолжительность сна по профессиям
(03) Столбчатая диаграмма
На графике видно, сколько в среднем спят люди разных профессий. Некоторые профессии связаны с коротким сном, другие — с длинным. Столбчатая диаграмма подходит для сравнения категорий и сразу показывает разницу между группами.
(04) Физическая активность и качество сна
(04) Scatter / Bubble
На графике видно, как физическая активность связана с качеством сна. Точки с большим уровнем стресса выделены размером. Scatter / Bubble выбран, чтобы показать связь между двумя числовыми показателями и добавить третью переменную через размер точек, что помогает сразу увидеть комплексное влияние стресса.
(05) Качество сна при наличии расстройств
(05) Boxplot
График показывает, как наличие расстройств сна влияет на качество сна. Видно, что у людей с расстройствами оценки сна ниже и разброс больше. Boxplot выбран, чтобы наглядно показать разброс и медиану внутри категорий, делая различия между группами очевидными.
(06) Распределение уровня стресса
(06) Countplot
На графике видно, сколько людей с разным уровнем стресса. Большинство имеют средний или высокий уровень. Countplot удобен, чтобы сравнить частоту категориальных данных и быстро увидеть, какая категория преобладает.
(07) Средний профиль сна и образа жизни
(07) Radar Chart
График показывает средние показатели: продолжительность сна, качество, активность и стресс. Radar chart выбран, чтобы одним взглядом увидеть профиль всех показателей и сравнивать их между собой визуально.
(08) Корреляция показателей сна и образа жизни
(08) Heatmap
На графике видно, как показатели сна, стресса и активности связаны друг с другом. Heatmap выбран, чтобы визуально отобразить корреляции между несколькими числовыми переменными одновременно — сразу видно, где сильные или слабые связи.
Статистические методы
В проекте применялись базовые методы статистического анализа, подходящие для изучения реальных данных:
1. описательная статистика (среднее значение, медиана, стандартное отклонение) 2. анализ распределений с помощью гистограмм 3. группировка данных и сравнение средних значений 4. визуальный анализ взаимосвязей между показателями 5. корреляционный анализ ключевых параметров
Эти методы позволили сделать выводы на основе данных и наглядно представить их с помощью визуализации.
Выводы
Проанализировав данные, можно сделать несколько простых, но полезных наблюдений:
Большинство людей спит 6–8 часов, что совпадает с медицинскими рекомендациями.
Уровень стресса и физическая активность напрямую влияют на качество сна.
Некоторые профессии связаны с более коротким или более длинным сном.
Наличие расстройств сна снижает качество сна, а разброс оценок показывает индивидуальные различия.
Визуализации помогли не только увидеть цифры, но и понять реальные взаимосвязи, что делает выводы наглядными и понятными.