
Для анализа данных выбран California Housing Dataset, содержащий информацию о ценах на жилье в Калифорнии на уровне округов. Эти данные были получены из одного из наиболее авторитетных источников открытых датасетов для исследовательских целей. Набор данных был первоначально собран в ходе переписи населения США 1990 года и с тех пор стал эталонным для анализа жилищного рынка.
Мне интересно проанализировать именно этот датасет по нескольким причинам. Данные о рынке жилья имеют непосредственное применение в реальном мире — от принятия решений о покупке недвижимости до разработки государственной жилищной политики. Кроме того, набор содержит как географические координаты, так и разнообразные демографические и экономические показатели, что позволяет исследовать комплексные взаимосвязи. Наконец, доступность жилья остается одной из ключевых мировых социально-экономических проблем.
Выбранные типы визуализации
1. Гистограммы Анализ распределения цен на жилье, среднего дохода, возраста домов. Позволяют оценить нормальность распределения, выявить асимметрию и потенциальные выбросы
2. Scatter plots Исследование взаимосвязи между ценой на жилье и ключевыми факторами (доход, близость к океану, плотность населения). Наиболее эффективный способ визуализации корреляционных зависимостей между двумя непрерывными переменными
3. Географические карты Визуализация пространственного распределения цен с учетом координат. Калифорния имеет разнообразную географию, и расположение сильно влияет на стоимость жилья. Карты помогут выявить региональные закономерности
4. Box plots Применение: Сравнение распределения цен по категориям. Позволяют наглядно сравнить медианы, квартили и выбросы в разных группах
5. Матрица корреляций (тепловая карта) Анализ взаимосвязей между всеми числовыми переменными. Эффективный способ определения наиболее значимых предикторов
Такой набор визуализаций позволяет получить полное представление о данных: от общих статистических характеристик до сложных пространственных закономерностей и взаимосвязей между переменными. Каждый тип графика выбран для решения конкретных аналитических задач и в совокупности они создают целостную картину факторов, влияющих на стоимость жилья в Калифорнии.
1. Импорт библиотек и настройка стиля
2. Загрузка и первичный анализ данных
Признак — Описание — Единицы
MedInc — Медианный доход в районе — ×$10,000 HouseAge — Медианный возраст домов — годы AveRooms — Среднее количество комнат на дом — комнаты AveBedrms — Среднее количество спален на дом — спальни Population — Население района — человек AveOccup — Среднее количество жильцов на дом — человек Latitude — Широта — градусы Longitude — Долгота — градусы MedHouseVal — Медианная стоимость жилья (целевая) — ×$100,000
3. Описательная статистика
Ключевые наблюдения:
Стоимость жилья (MedHouseVal): Среднее: ~ 207,000. Медиана: 180,000 Максимум: $500,000 (искусственное ограничение)
Доход (MedInc): Среднее: ~ 38,700/год. Разброс: от 5,000 до $150,000/год
4. Корреляционный анализ
Выводы из корреляционного анализа:
MedInc (доход) — самый сильный предиктор цены (0.688) AveRooms — слабая положительная связь (больше комнат → дороже) Latitude — отрицательная связь (северные районы дороже) Population, AveOccup — почти не влияют на цену
5. Визуализация распределений
Гистограммы для всех признаков с градиентной заливкой и статистикой.
Наблюдения по распределениям:
MedInc, MedHouseVal — скошены вправо (много дешевых домов/бедных районов) HouseAge — относительно равномерное (дома разного возраста) Latitude, Longitude — равномерное (покрытие всей Калифорнии)
6. Корреляционная тепловая карта
Как читать карту:
Красный: положительная корреляция (растут вместе) Синий: отрицательная корреляция (один растет, другой падает) Белый: нет корреляции
7. Географическое распределение
Карта Калифорнии с ценами на жилье.
География цен:
Побережье (левая часть) — самое дорогое жилье (желто-розовые точки) Сан-Франциско (север, ~38° широты) — очень дорого Лос-Анджелес (центр, ~34°) — смешанные цены Внутренние районы (правая часть) — дешевле (синие точки)
8. Зависимость цены от дохода
Scatter plot с линией тренда и коэффициентом детерминации R².
Интерпретация:
R² = 0.47 означает, что доход объясняет 47% вариации цен Линия тренда: при увеличении дохода на 10k, ценарастетна 42k Горизонтальная линия на 5.0 — искусственный потолок в датасете ($500k)
9. Анализ выбросов (Boxplots)
Диаграммы размаха для выявления аномальных значений.
Что видим:
AveBedrms — больше всего выбросов (6.9%) Population — много районов с экстремальным населением Latitude, Longitude — нет выбросов (географические координаты)
10. Попарные зависимости (Pairplot)
Матрица scatter plots для ключевых признаков.
Паттерны:
MedInc × MedHouseVal: четкая положительная связь HouseAge × MedHouseVal: слабая связь (разброс) Диагональ: распределения + плотность (KDE)
11. Violin Plots
Комбинация boxplot + плотность распределения.
Форма «скрипок»:
Широкая часть = много значений на этом уровне Узкая часть = мало значений Симметричная = нормальное распределение
12. Итоговый отчет
Основные детерминанты стоимости жилья Доход населения является наиболее значимым фактором, определяющим стоимость жилья в Калифорнии (коэффициент корреляции +0.688). Эта сильная положительная взаимосвязь подтверждает базовый экономический принцип: покупательная способность населения напрямую влияет на ценовой уровень недвижимости. Линейная регрессия показывает, что увеличение медианного дохода на $10,000 ведет к росту стоимости жилья примерно на $42,000.
Географические закономерности Пространственное распределение цен демонстрирует четкие паттерны: 1. Прибрежные районы существенно дороже внутренних регионов 2. Северная Калифорния (особенно район залива Сан-Франциско) имеет более высокие цены по сравнению с южными регионами 3. Географическая визуализация подтвердила ожидаемую концентрацию высокой стоимости жилья в мегаполисах и курортных зонах
Ограниченное влияние физических характеристик Анализ выявил умеренное влияние размера жилья на его стоимость: 1. Количество комнат имеет слабую положительную корреляцию (+0.152) 2. Возраст дома демонстрирует минимальное положительное влияние (+0.106) 3. Это свидетельствует о том, что в Калифорнии местоположение преобладает над физическими параметрами жилья
Проведенный анализ объясняет 47,3% вариативности цен (R² = 0.4734), что для социально-экономических данных является удовлетворительным результатом, но указывает на наличие других значимых факторов, не учтенных в датасете:
Практические рекомендации: Для покупателей/инвесторов: Приоритет следует отдавать районам с растущими доходами населения и прибрежным локациям Для застройщиков: Наиболее перспективны районы с высоким медианным доходом Для политиков: Неравномерность распределения цен требует дифференцированного подхода к жилищной политике в разных регионах
Рынок жилья Калифорнии характеризуется сильной зависимостью от экономического благосостояния населения и выраженным географическим неравенством. В то время как доход является основным драйвером цен, географические и демографические особенности штата создают сложную систему, требующих точечного, локализованного подхода к анализу и прогнозированию.
*Обложка и последнее изображение сгенерированы нейросетью Krea. Image promt: https://files.mediiia.ru/postimages/38910/4f3ad19b06ad42c8bdc77d9a5a93719b/27dced30e8cc4a698b7f80d0cb55b3671152x945.png