
Концепция
В рамках проекта был выбран табличный датасет, опубликованный на платформе Kaggle, содержащий информацию об учебных привычках студентов: время, затрачиваемое на учёбу, сон и экранную активность, посещаемость занятий и итоговые академические результаты. Данные представлены в формате CSV.
Интерес к этим данным обусловлен возможностью количественно проанализировать связь между повседневными поведенческими паттернами и академической успеваемостью. Тема обладает практической ценностью и позволяет рассмотреть влияние образа жизни на результаты обучения.
Для анализа были использованы:
(01) Корреляционная матрица (02) Линейчатая диаграмма (03) Диаграмма интервалов (медиана и IQR) (04) Диаграмма плотности (hexbin) (05) Радиальная диаграмма
Выбор данных типов диаграмм обусловлен характером исходных данных и поставленной аналитической задачей.
Подготовка данных
Сначала я привела данные в чистый вид: перевела числовые столбцы в числа, заполнила пропуски медианой (чтобы не сдвигать распределение), и добавила два новых признака:
Экранное время = соцсети + сериалы/фильмы
Баланс = учёба − экранное время
Это нужно, чтобы сравнивать не только «сколько учится», но и «сколько времени учёба конкурирует с экраном».

Корреляционная матрица: первый взгляд на взаимосвязи
Почему я начала с этого графика? Мне нужно было понять общую картину: как все факторы связаны между собой. Тепловая карта корреляций — идеальный инструмент для такого первого знакомства с данными. Я специально настроила цветовую палитру так, чтобы положительные корреляции отображались оттенками синего, а слабые или отрицательные — более темными тонами. Это сразу бросается в глаза.
Что я увидела? Самые яркие квадраты подтвердили ожидаемое: время учебы и посещаемость занятий имеют положительную связь с итоговым баллом. А вот общее время у экрана (screen_hours_total) показало четкую отрицательную корреляцию с успеваемостью. Это стало отправной точкой для более глубокого анализа.
(01) Корреляционная матрица
(01) Код
Рейтинг факторов: что важно на самом деле
(02) Линейчатая диаграмма
(02) Код
После общей матрицы мне захотелось выделить главное — силу влияния каждой привычки на оценку. Горизонтальная диаграмма с сортировкой делает это максимально наглядно. Я раскрасила столбцы в разные оттенки синего в зависимости от того, положительное влияние или отрицательное.
Что стало открытием? График четко ранжировал факторы. Оказалось, что посещаемость — самый сильный положительный предиктор успеха, даже немного опережающий время, потраченное на учебу. А главный «вредитель» — это общее экранное время. При этом я обратила внимание, что психическое состояние и спорт тоже показывают положительную связь, хоть и не такую сильную. Это важный сигнал о комплексном влиянии образа жизни.
Сон и успеваемость: поиск оптимального диапазона
(03) Диаграмма интервалов (медиана и IQR)
(03) Код
Корреляция — это хорошо, но мне хотелось увидеть не просто связь, а распределение оценок в разных группах. IQR-график (interquartile range) с медианой идеально для этого подходит: горизонтальная линия показывает разброс средних 50% данных, а точка — типичное значение в группе.
Картина получилась очень четкой. У студентов, которые спят от 7 до 8.5 часов, не только самая высокая медианная оценка, но и самый компактный «ящик» — значит, их результаты стабильно хорошие. А вот у тех, кто спит меньше 5.5 часов, разброс огромный, и медиана заметно ниже. Что интересно, группа «больше 8.5 часов» тоже показывает небольшое снижение. Получается, важен не просто «больше сна», а оптимальный диапазон.
Учеба vs. Экран: история в одной картинке
(04) Диаграмма плотности (hexbin)
(04) Код
Почему hexbin, а не обычный scatter plot? Когда у нас тысячи точек, обычная точечная диаграмма превращается в нечитаемое месиво. Hexbin группирует близкие точки в шестиугольники и раскрашивает их по плотности. Это как тепловая карта для scatter plot — сразу видно, где сконцентрированы данные.
Какая история здесь? Мы видим явный тренд: больше учебы — выше оценки. Но что действительно ценно, так это то, как график показывает плотность. Самые яркие (насыщенные синие) кластеры приходятся на 2–4 часа учебы и оценки 70–85 баллов. Видно, что мало студентов учатся больше 6 часов, а те, кто учатся очень мало (менее 1 часа), редко получают высокие баллы. Это наглядная иллюстрация «золотой середины».
Радар-профили: портреты успешных и отстающих студентов
(05) Радиальная диаграмма
(05) Код
Мне хотелось создать целостный портрет студента из разных групп. Радарная диаграмма позволяет одновременно сравнить 5 ключевых параметров. Это синтез всего предыдущего анализа в одной картинке.
Что видно на радаре? Профили отличаются кардинально. У студентов с высокими баллами (белый контур) равномерно развиты все привычки: они и учатся достаточно, и меньше сидят у экрана, и лучше спят, и чаще ходят на пары, и оценивают свое психическое состояние выше. У группы с низкими баллами (светло-синий) по всем параметрам провал, особенно по времени у экрана и посещаемости. Это наглядное подтверждение: успех — это не один фактор, а синергия правильных привычек.
Заключение
Это исследование наглядно показало, что успеваемость — это сложный пазл, где каждая привычка играет свою роль. Сильнее всего на оценки влияют посещаемость и контроль над экранным временем. При этом 7–8.5 часов сна- это оптимальный диапазон для максимальных результатов.
Самое важное, что я вынесла из этой работы: данные — это не просто цифры в таблице. С помощью продуманной визуализации они могут рассказать живую историю. Каждый график в этом проекте- это шаг от простого вопроса к понятному и наглядному ответу.
Описание применения генеративной модели
В процессе работы я несколько раз обращалась к помощи ChatGPT. Он помогал уточнять формулировки, предлагал более аккуратные способы визуального оформления графиков и подсказывал, как лучше структурировать код.
Для создания обложки проекта была использована нейросеть Leonardo AI.
Список источников
1. Student Habits vs Academic Performance // Kaggle URL: https://www.kaggle.com/datasets/jayaantanaath/student-habits-vs-academic-performance (дата обращения: 20.12.2025).