
ВВЕДЕНИЕ
Представленный проект посвящен анализу набора данных и их визуализации. Для продуктивной работы я выбрала тему «Анализ психического здоровья студентов во время онлайн-обучения». Это реальные табличные данные в формате Excel с платформы Kaggle, в которых содержится большое количество разнообразных переменных, удобных для работы.
Мне интересно проанализировать именно эти данные, потому что тема психического здоровья в рамках онлайн-образования для меня очень актуальна. В связи с технологическим прогрессом образование все больше переходит в онлайн-формат, поскольку такой вид обучения невероятно удобен. Я тоже столкнулась в необходимостью проходить многие курсы онлайн и, кроме плюсов от экономии времени на дорогу, я ощутила минусы — сильную тревогу и стресс. Мне интересно понять, является ли мое состояние индивидуальным явлением или это массовый тренд.
Моя цель: Проанализировать взаимосвязь переменных и влияние онлайн-обучения на психическое здоровье студентов, а также выявить ключевые факторы риска, при которых возникает стресс.
ВИДЫ ГРАФИКОВ И ОБОСНОВАНИЕ ВЫБОРА
В проекте реализованы 4 типа визуализаций, каждый из которых выбран для решения конкретных задач:
Изучающие визуализации: 1. Точечная диаграмма (для обнаружения взаимосвязей между экранным временем и сном). 2. Столбчатая диаграмма (для сравнения переменных «стресс» и «успеваемость» между конкретными группами).
Объясняющие визуализации: 3. Круговая диаграмма (для наглядного представления пропорций и долей распределения тревожности). 4. Линейная диаграмма (для демонстрации трендов и изменении метрик во времени или по группам (активность и стресс)).
ЭТАПЫ РАБОТЫ
Чтобы загрузить и переработать данные я воспользовалась блокнотом Google Colab и выбрала Python в качестве основного языка программирования.
Дополнительно для анализа и обработки данных я использовала Pandas, для визуализации — Matplotlib и Seaborn, а для математических — вычислений NumPy.
Также я пользовалась статистическими методами: 1. Общая статистика (средние значения и проценты). 2. Анализ взаимосвязей (проверяла в какой степени показатели связаны между собой). 3. Сравнение групп. 4. Прогнозирование изменений.
Для стилизации я сгенерировала единую цветовую палитру с помощью сайта coolors.co. Она стала точкой вдохновения, и уже с помощью готовых цветов (шестнадцатеричных значений) я создала инфографики в едином стиле через настройку rcParams. Во всех графиках присутствует темный фон, белый текст и набор семантических цветов.


сайт: coolors.co


ИТОГОВЫЕ ГРАФИКИ
Первый график — это точечная диаграмма. Он показывает взаимосвязь между экранным временем и продолжительностью сна у 1000 студентов (каждая точка — один студент).
ГРАФИК 1: точечная диаграмма Тип: Изучающая визуализация Расчет статистики для графика: • Превышают норму экрана (>6 ч/день): 57,9% • Не высыпаются (<7 ч/ночь): 59,9%
С помощью визуализации первого графика становится понятно, что увеличение времени перед экраном связано с сокращением продолжительности сна. Особенно у студентов с высоким показателем стресса.
код 1 графика
Второй график — столбчатая диаграмма. С ее помощью можно проследить, как уровень стресса влияет на академическую успеваемость студентов.
ГРАФИК 2: СТОЛБЧАТАЯ ДИАГРАММА Тип: Изучающая визуализация
Обращаясь к данным диаграммы, можно заметить, что с ростом стресса (слева направо), красная доля столбца увеличивается. Это показывает, что чем выше стресс, тем ниже академическая успеваемость студентов.
код 2 графика
Третий график является круговой диаграммой и отображает распределение тревожности перед экзаменами среди студентов.
ГРАФИК 3: круговая диаграмма Тип: Объясняющая визуализация
Анализируя диаграмму, можно заметить, что большую ее часть занимает категория «Да». Это означает, что большинство студентов испытывают тревогу перед экзаменами. Также, обращаясь к конечным значениям по полу, можно увидеть, что женщины больше тревожатся перед экзаменами, чем мужчины.
код 3 графика
Четвертый и последний график — линейная диаграмма. Она отображает изменения активности и стресса у студентов разных возрастов и зависимость двух представленных метрик друг от друга.
Четвертый и последний график — линейная диаграмма. Он отображает изменения физической активности и стресса у студентов разных возрастов и зависимость друг представленных метрик друг от друга.
ГРАФИК 4: линейная диаграмма Тип: Объясняющая визуализация
На данной диаграмме видно, как взаимодействуют активность и стресс, и в какой период жизни студентов на онлайн-обучении эти значения максимальны. С помощью диаграммы можно понять: 1. Чем выше активность тем выше стресс. 2. Пик стресса и активности приходится на 19-22 лет. На основе этого можно сделать вывод, что стресс среди студентов закономерен и предсказуем.


код 4 графика
ВЫВОД
На основе анализа 1000 студентов я выявила, что переживание стресса во время онлайн-обучения — распространенная проблема. Выяснилось, что экранное время негативно влияет на сон, что стресс напрямую связан с успеваемостью и что тревожность перед экзаменами — массовое явление.