Original size 992x1488

Паттерны учебного поведения студентов: анализ и визуализация данных

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

В рамках проекта был выбран табличный датасет, опубликованный на платформе Kaggle, содержащий информацию об учебных привычках студентов: время, затрачиваемое на учёбу, сон и экранную активность, посещаемость занятий и итоговые академические результаты. Данные представлены в формате CSV.

Интерес к этим данным обусловлен возможностью количественно проанализировать связь между повседневными поведенческими паттернами и академической успеваемостью. Тема обладает практической ценностью и позволяет рассмотреть влияние образа жизни на результаты обучения.

Для анализа были использованы:

(01) Корреляционная матрица (02) Линейчатая диаграмма (03) Диаграмма интервалов (медиана и IQR) (04) Диаграмма плотности (hexbin) (05) Радиальная диаграмма

Выбор данных типов диаграмм обусловлен характером исходных данных и поставленной аналитической задачей.

Подготовка данных

Сначала я привела данные в чистый вид: перевела числовые столбцы в числа, заполнила пропуски медианой (чтобы не сдвигать распределение), и добавила два новых признака:

Экранное время = соцсети + сериалы/фильмы

Баланс = учёба − экранное время

Это нужно, чтобы сравнивать не только «сколько учится», но и «сколько времени учёба конкурирует с экраном».

big
Original size 5244x3057

Корреляционная матрица: первый взгляд на взаимосвязи

Почему я начала с этого графика? Мне нужно было понять общую картину: как все факторы связаны между собой. Тепловая карта корреляций — идеальный инструмент для такого первого знакомства с данными. Я специально настроила цветовую палитру так, чтобы положительные корреляции отображались оттенками синего, а слабые или отрицательные — более темными тонами. Это сразу бросается в глаза.

Что я увидела? Самые яркие квадраты подтвердили ожидаемое: время учебы и посещаемость занятий имеют положительную связь с итоговым баллом. А вот общее время у экрана (screen_hours_total) показало четкую отрицательную корреляцию с успеваемостью. Это стало отправной точкой для более глубокого анализа.

Original size 1163x856

(01) Корреляционная матрица

Original size 5244x3482
Original size 5244x969

(01) Код

Рейтинг факторов: что важно на самом деле

Original size 1211x731

(02) Линейчатая диаграмма

Original size 5244x3482

(02) Код

После общей матрицы мне захотелось выделить главное — силу влияния каждой привычки на оценку. Горизонтальная диаграмма с сортировкой делает это максимально наглядно. Я раскрасила столбцы в разные оттенки синего в зависимости от того, положительное влияние или отрицательное.

Что стало открытием? График четко ранжировал факторы. Оказалось, что посещаемость — самый сильный положительный предиктор успеха, даже немного опережающий время, потраченное на учебу. А главный «вредитель» — это общее экранное время. При этом я обратила внимание, что психическое состояние и спорт тоже показывают положительную связь, хоть и не такую сильную. Это важный сигнал о комплексном влиянии образа жизни.

Сон и успеваемость: поиск оптимального диапазона

Original size 1211x691

(03) Диаграмма интервалов (медиана и IQR)

Original size 5244x3714

(03) Код

Корреляция — это хорошо, но мне хотелось увидеть не просто связь, а распределение оценок в разных группах. IQR-график (interquartile range) с медианой идеально для этого подходит: горизонтальная линия показывает разброс средних 50% данных, а точка — типичное значение в группе.

Картина получилась очень четкой. У студентов, которые спят от 7 до 8.5 часов, не только самая высокая медианная оценка, но и самый компактный «ящик» — значит, их результаты стабильно хорошие. А вот у тех, кто спит меньше 5.5 часов, разброс огромный, и медиана заметно ниже. Что интересно, группа «больше 8.5 часов» тоже показывает небольшое снижение. Получается, важен не просто «больше сна», а оптимальный диапазон.

Учеба vs. Экран: история в одной картинке

Original size 1209x691

(04) Диаграмма плотности (hexbin)

Original size 5244x2246

(04) Код

Почему hexbin, а не обычный scatter plot? Когда у нас тысячи точек, обычная точечная диаграмма превращается в нечитаемое месиво. Hexbin группирует близкие точки в шестиугольники и раскрашивает их по плотности. Это как тепловая карта для scatter plot — сразу видно, где сконцентрированы данные.

Какая история здесь? Мы видим явный тренд: больше учебы — выше оценки. Но что действительно ценно, так это то, как график показывает плотность. Самые яркие (насыщенные синие) кластеры приходятся на 2–4 часа учебы и оценки 70–85 баллов. Видно, что мало студентов учатся больше 6 часов, а те, кто учатся очень мало (менее 1 часа), редко получают высокие баллы. Это наглядная иллюстрация «золотой середины».

Радар-профили: портреты успешных и отстающих студентов

Original size 2131x1150

(05) Радиальная диаграмма

Original size 5244x3351
Original size 5244x3156
Original size 5244x2445

(05) Код

Мне хотелось создать целостный портрет студента из разных групп. Радарная диаграмма позволяет одновременно сравнить 5 ключевых параметров. Это синтез всего предыдущего анализа в одной картинке.

Что видно на радаре? Профили отличаются кардинально. У студентов с высокими баллами (белый контур) равномерно развиты все привычки: они и учатся достаточно, и меньше сидят у экрана, и лучше спят, и чаще ходят на пары, и оценивают свое психическое состояние выше. У группы с низкими баллами (светло-синий) по всем параметрам провал, особенно по времени у экрана и посещаемости. Это наглядное подтверждение: успех — это не один фактор, а синергия правильных привычек.

Заключение

Это исследование наглядно показало, что успеваемость — это сложный пазл, где каждая привычка играет свою роль. Сильнее всего на оценки влияют посещаемость и контроль над экранным временем. При этом 7–8.5 часов сна- это оптимальный диапазон для максимальных результатов.

Самое важное, что я вынесла из этой работы: данные — это не просто цифры в таблице. С помощью продуманной визуализации они могут рассказать живую историю. Каждый график в этом проекте- это шаг от простого вопроса к понятному и наглядному ответу.

Описание применения генеративной модели

В процессе работы я несколько раз обращалась к помощи ChatGPT. Он помогал уточнять формулировки, предлагал более аккуратные способы визуального оформления графиков и подсказывал, как лучше структурировать код.

Для создания обложки проекта была использована нейросеть Leonardo AI.

Список источников

1. Student Habits vs Academic Performance // Kaggle URL: https://www.kaggle.com/datasets/jayaantanaath/student-habits-vs-academic-performance (дата обращения: 20.12.2025).