gvlassis/california_housing

Name: gvlassis/california_housing
Creator: gvlassis
Published: 2024-06-20 10:35:08
License: 暂无描述

Hugging Face2024-06-20 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/gvlassis/california_housing

下载链接

链接失效反馈

官方服务：

资源简介：

California Housing数据集来源于1990年加利福尼亚州的人口普查，包含20640个样本，每个样本对应一个地理区块及其居民。数据集包含8个特征：区块中居民的中位收入、房屋中位年龄、平均房间数、平均卧室数、人口数、平均居住人数、地理纬度和经度。目标变量是房屋中位价值。数据集分为训练集、验证集和测试集，分别包含16640、2000和2000个样本。

提供机构：

gvlassis

原始信息汇总

加州住房数据集 (California Housing Dataset)

数据集概述

数据来源: 加州1990年人口普查
样本数量: 20640个样本
样本描述: 每个样本对应一个地理区块及其居民信息

特征信息

MedInc: 区块内居民的中位收入 (float64)
HouseAge: 区块内房屋的中位年龄 (float64)
AveRooms: 区块内房屋的平均房间数 (float64)
AveBedrms: 区块内房屋的平均卧室数 (float64)
Population: 区块内居民数量 (float64)
AveOccup: 区块内房屋的平均居住人数 (float64)
Latitude: 地理纬度 (float64)
Longitude: 地理经度 (float64)
MedHouseVal: 目标变量，区块内房屋的中位价值 (float64)

数据集划分

训练集: 16640个样本，1198080字节
验证集: 2000个样本，144000字节
测试集: 2000个样本，144000字节

数据集大小

下载大小: 1056079字节
数据集总大小: 1486080字节

配置信息

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

许可证

许可证: MIT

任务类别

任务类别: 表格回归 (tabular-regression)

语言

语言: 英语 (en)

数据集规模

规模: 10K<n<100K

搜集汇总

数据集介绍

构建方式

在房地产经济学与空间统计学的交叉领域，加州住房数据集作为一项经典资源，其构建过程体现了严谨的实证研究范式。该数据集源自1990年美国加州人口普查的公开记录，通过对全州范围内地理区块的抽样与聚合而形成。原始普查数据经过系统的清洗与特征工程处理，剔除了无效记录，并依据地理区块聚合生成了八个核心社会经济与地理特征变量，以及一个表征房屋价值中位数的目标变量。整个构建流程确保了数据在空间与统计维度上的代表性与一致性，为后续的回归建模奠定了可靠基础。

特点

该数据集在特征设计上展现了多维度的社会经济与地理信息融合。其核心特征涵盖了居民收入中位数、房屋年龄中位数、平均房间数、平均卧室数、区块人口数量、平均居住密度以及精确的地理经纬度坐标。这些特征不仅量化了住房的物理属性与居住条件，更通过收入与人口变量反映了社区的经济活力与社会结构。数据集包含20640个样本，划分为训练集、验证集与测试集，结构清晰且规模适中，使其成为检验回归模型预测性能与空间自相关分析的理想基准。

使用方法

在机器学习与计量经济学的应用场景中，该数据集主要用于监督学习框架下的回归任务。用户可通过Hugging Face的`datasets`库便捷加载，调用`load_dataset("gvlassis/california_housing")`指令即可获取已划分的训练、验证与测试子集。典型的使用流程包括特征标准化、模型训练（如线性回归、决策树或神经网络）以及基于验证集的超参数调优，最终在测试集上评估模型对房屋价值中位数的预测精度。其清晰的结构支持端到端的分析流水线，便于研究者复现与比较各类预测算法的效能。

背景与挑战

背景概述

加州住房数据集源于1990年美国人口普查，由统计学家在1997年《稀疏空间自回归》论文中首次引入，旨在探索地理空间因素对房价的影响机制。该数据集由加州大学伯克利分校等机构的研究人员构建，核心研究问题聚焦于如何利用社会经济与地理特征预测区域房价中位数，为计量经济学和机器学习领域提供了经典的回归分析基准。其公开后迅速成为空间统计学和预测建模的重要资源，推动了房地产估值、区域经济政策等多学科交叉研究的发展。

当前挑战

该数据集旨在解决住房价格预测中复杂非线性关系的建模挑战，包括如何有效整合收入、人口密度与地理坐标等多源特征，并克服空间自相关对传统回归方法的干扰。在构建过程中，数据采集面临普查信息聚合尺度粗粒度化的局限，特征工程需处理变量间多重共线性及异常值干扰，同时原始数据的地理区块划分可能导致样本分布不均衡，这些因素均对模型的泛化能力与解释性提出了较高要求。

常用场景

经典使用场景

在房地产经济学与空间数据分析领域，加州住房数据集常被用作回归建模的基准工具。研究者利用该数据集中的地理区块特征，如收入中位数、房屋年龄和人口密度，构建预测模型以估算房屋价值中位数。这一过程不仅验证了线性回归、决策树等经典算法的性能，还推动了梯度提升和神经网络在结构化数据上的应用探索。数据集的多维特征为模型训练提供了丰富的输入空间，使得学者能够深入分析各变量对房价的边际贡献。

衍生相关工作

围绕该数据集衍生的经典工作包括《稀疏空间自回归》中的初始研究，以及《Scikit-Learn与TensorFlow机器学习实战》中的教学案例。后续学者进一步拓展了其应用边界，如结合空间插值法完善缺失数据处理，或集成深度学习架构捕捉非线性关系。这些工作不仅巩固了数据集在机器学习课程中的标杆地位，也激发了跨学科研究，如环境经济学与计算社会科学的融合探索。

数据集最近研究