Original size 832x1248

Анализ данных. California Housing Dataset

PROTECT STATUS: not protected
The project is taking part in the competition

Для анализа данных выбран California Housing Dataset, содержащий информацию о ценах на жилье в Калифорнии на уровне округов. Эти данные были получены из одного из наиболее авторитетных источников открытых датасетов для исследовательских целей. Набор данных был первоначально собран в ходе переписи населения США 1990 года и с тех пор стал эталонным для анализа жилищного рынка.

Мне интересно проанализировать именно этот датасет по нескольким причинам. Данные о рынке жилья имеют непосредственное применение в реальном мире — от принятия решений о покупке недвижимости до разработки государственной жилищной политики. Кроме того, набор содержит как географические координаты, так и разнообразные демографические и экономические показатели, что позволяет исследовать комплексные взаимосвязи. Наконец, доступность жилья остается одной из ключевых мировых социально-экономических проблем.

Выбранные типы визуализации

1. Гистограммы Анализ распределения цен на жилье, среднего дохода, возраста домов. Позволяют оценить нормальность распределения, выявить асимметрию и потенциальные выбросы

2. Scatter plots Исследование взаимосвязи между ценой на жилье и ключевыми факторами (доход, близость к океану, плотность населения). Наиболее эффективный способ визуализации корреляционных зависимостей между двумя непрерывными переменными

3. Географические карты Визуализация пространственного распределения цен с учетом координат. Калифорния имеет разнообразную географию, и расположение сильно влияет на стоимость жилья. Карты помогут выявить региональные закономерности

4. Box plots Применение: Сравнение распределения цен по категориям. Позволяют наглядно сравнить медианы, квартили и выбросы в разных группах

5. Матрица корреляций (тепловая карта) Анализ взаимосвязей между всеми числовыми переменными. Эффективный способ определения наиболее значимых предикторов

Такой набор визуализаций позволяет получить полное представление о данных: от общих статистических характеристик до сложных пространственных закономерностей и взаимосвязей между переменными. Каждый тип графика выбран для решения конкретных аналитических задач и в совокупности они создают целостную картину факторов, влияющих на стоимость жилья в Калифорнии.

1. Импорт библиотек и настройка стиля

Original size 1465x1207

2. Загрузка и первичный анализ данных

0

Признак — Описание — Единицы

MedInc — Медианный доход в районе — ×$10,000 HouseAge — Медианный возраст домов — годы AveRooms — Среднее количество комнат на дом — комнаты AveBedrms — Среднее количество спален на дом — спальни Population — Население района — человек AveOccup — Среднее количество жильцов на дом — человек Latitude — Широта — градусы Longitude — Долгота — градусы MedHouseVal — Медианная стоимость жилья (целевая) — ×$100,000

3. Описательная статистика

Original size 1465x730

Ключевые наблюдения:

Стоимость жилья (MedHouseVal): Среднее: ~ 207,000. Медиана: 180,000 Максимум: $500,000 (искусственное ограничение)

Доход (MedInc): Среднее: ~ 38,700/год. Разброс: от 5,000 до $150,000/год

4. Корреляционный анализ

0

Выводы из корреляционного анализа:

MedInc (доход) — самый сильный предиктор цены (0.688) AveRooms — слабая положительная связь (больше комнат → дороже) Latitude — отрицательная связь (северные районы дороже) Population, AveOccup — почти не влияют на цену

5. Визуализация распределений

0

Гистограммы для всех признаков с градиентной заливкой и статистикой.

Наблюдения по распределениям:

MedInc, MedHouseVal — скошены вправо (много дешевых домов/бедных районов) HouseAge — относительно равномерное (дома разного возраста) Latitude, Longitude — равномерное (покрытие всей Калифорнии)

6. Корреляционная тепловая карта

0

Как читать карту:

Красный: положительная корреляция (растут вместе) Синий: отрицательная корреляция (один растет, другой падает) Белый: нет корреляции

7. Географическое распределение

0

Карта Калифорнии с ценами на жилье.

География цен:

Побережье (левая часть) — самое дорогое жилье (желто-розовые точки) Сан-Франциско (север, ~38° широты) — очень дорого Лос-Анджелес (центр, ~34°) — смешанные цены Внутренние районы (правая часть) — дешевле (синие точки)

8. Зависимость цены от дохода

0

Scatter plot с линией тренда и коэффициентом детерминации R².

Интерпретация:

R² = 0.47 означает, что доход объясняет 47% вариации цен Линия тренда: при увеличении дохода на 10k, ценарастетна 42k Горизонтальная линия на 5.0 — искусственный потолок в датасете ($500k)

9. Анализ выбросов (Boxplots)

0

Диаграммы размаха для выявления аномальных значений.

Что видим:

AveBedrms — больше всего выбросов (6.9%) Population — много районов с экстремальным населением Latitude, Longitude — нет выбросов (географические координаты)

10. Попарные зависимости (Pairplot)

0

Матрица scatter plots для ключевых признаков.

Паттерны:

MedInc × MedHouseVal: четкая положительная связь HouseAge × MedHouseVal: слабая связь (разброс) Диагональ: распределения + плотность (KDE)

11. Violin Plots

0

Комбинация boxplot + плотность распределения.

Форма «скрипок»:

Широкая часть = много значений на этом уровне Узкая часть = мало значений Симметричная = нормальное распределение

12. Итоговый отчет

Original size 2443x1978
Original size 2978x2391

Основные детерминанты стоимости жилья Доход населения является наиболее значимым фактором, определяющим стоимость жилья в Калифорнии (коэффициент корреляции +0.688). Эта сильная положительная взаимосвязь подтверждает базовый экономический принцип: покупательная способность населения напрямую влияет на ценовой уровень недвижимости. Линейная регрессия показывает, что увеличение медианного дохода на $10,000 ведет к росту стоимости жилья примерно на $42,000.

Географические закономерности Пространственное распределение цен демонстрирует четкие паттерны: 1. Прибрежные районы существенно дороже внутренних регионов 2. Северная Калифорния (особенно район залива Сан-Франциско) имеет более высокие цены по сравнению с южными регионами 3. Географическая визуализация подтвердила ожидаемую концентрацию высокой стоимости жилья в мегаполисах и курортных зонах

Ограниченное влияние физических характеристик Анализ выявил умеренное влияние размера жилья на его стоимость: 1. Количество комнат имеет слабую положительную корреляцию (+0.152) 2. Возраст дома демонстрирует минимальное положительное влияние (+0.106) 3. Это свидетельствует о том, что в Калифорнии местоположение преобладает над физическими параметрами жилья

Проведенный анализ объясняет 47,3% вариативности цен (R² = 0.4734), что для социально-экономических данных является удовлетворительным результатом, но указывает на наличие других значимых факторов, не учтенных в датасете:

Практические рекомендации: Для покупателей/инвесторов: Приоритет следует отдавать районам с растущими доходами населения и прибрежным локациям Для застройщиков: Наиболее перспективны районы с высоким медианным доходом Для политиков: Неравномерность распределения цен требует дифференцированного подхода к жилищной политике в разных регионах

Рынок жилья Калифорнии характеризуется сильной зависимостью от экономического благосостояния населения и выраженным географическим неравенством. В то время как доход является основным драйвером цен, географические и демографические особенности штата создают сложную систему, требующих точечного, локализованного подхода к анализу и прогнозированию.

*Обложка и последнее изображение сгенерированы нейросетью Krea. Image promt: https://files.mediiia.ru/postimages/38910/4f3ad19b06ad42c8bdc77d9a5a93719b/27dced30e8cc4a698b7f80d0cb55b3671152x945.png

Original size 1568x672