California Housing Dataset

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/Richkart700/Feature-selection-using-different-methods-on-California-housing-prices-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于1990年美国人口普查，每行代表一个普查区块组。区块组是美国人口普查局发布样本数据的最小地理单位，通常人口为600至3000人。数据集包含20640个样本，8个输入特征，如区块组的中位收入、房屋年龄等，以及一个目标变量：加州地区的中位房屋价值，单位为十万美金。

This dataset originates from the 1990 United States Census, with each row representing a census block group. A block group is the smallest geographic unit for which the U.S. Census Bureau publishes sample data, typically encompassing a population of 600 to 3,000 individuals. The dataset comprises 20,640 samples, featuring 8 input attributes such as median income of the block group, housing age, among others, and a target variable: the median house value in California, measured in units of one hundred thousand U.S. dollars.

创建时间：

2024-04-01

原始信息汇总

数据集概述

数据集名称

名称: California Housing Dataset

数据集来源

来源: 该数据集从StatLib仓库获取，链接为https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html。

数据集描述

数据来源: 数据源自1990年美国人口普查，每一行代表一个普查区块组。
数据特点: 区块组是美国人口普查局发布样本数据的最小地理单位，通常人口为600至3000人。
数据结构: 包含20640个样本，每个样本有8个输入特征和一个目标变量。

输入特征

MedInc: 区块组中位数收入
HouseAge: 区块组中位数房屋年龄
AveRooms: 每户平均房间数
AveBedrms: 每户平均卧室数
Population: 区块组人口
AveOccup: 每户平均居住人数
Latitude: 区块组纬度
Longitude: 区块组经度

目标变量

Median house value: 加州地区的中位数房屋价值，单位为十万美金。

数据集用途

用途: 用于特征选择和模型性能优化，主要关注R2 Score和Mean Squared Error。

特征选择方法

监督方法:
- 过滤法:
  - mutual_info_regression
  - Pearson correlation (f_regression)
  - Pearson correlation (using pandas)
- 包装法:
  - Recursive feature elimination [RFE]
  - Sequential feature selection
- 嵌入法:
  - Lasso
非监督方法:
- Principal component analysis [PCA]

评估结果

最佳方法: Lasso方法在所有评估方法中表现最优，R2 Score为0.622，Mean Squared Error为0.530。

搜集汇总

数据集介绍

构建方式

加州住房数据集源自1990年美国人口普查，以每个普查区块组为单位进行数据采集。该数据集通过统计每个区块组的住房相关信息，如中位收入、房屋年龄、平均房间数等，构建了一个包含20640个样本的数据集。数据集的构建旨在为机器学习模型提供一个详尽的住房市场分析基础，从而预测加州地区的房屋中位价值。

特点

加州住房数据集具有多维度的特征，包括中位收入、房屋年龄、平均房间数等八个输入特征，以及一个目标变量——房屋中位价值。这些特征不仅涵盖了经济、地理等多方面信息，还通过不同的特征选择方法进行了优化，以提升模型的预测性能。数据集的多样性和详尽性使其成为研究住房市场预测的理想选择。

使用方法

加州住房数据集可通过sklearn.datasets.fetch_california_housing函数进行下载和加载。用户可以利用Python环境中的Scikit-learn、Pandas、Matplotlib等库对数据集进行分析和建模。数据集的预处理和特征选择步骤可通过多种方法实现，如过滤法、包装法和嵌入法，以优化模型的性能。通过Google Colab等平台，用户可以轻松运行和测试基于该数据集的模型。

背景与挑战

背景概述

加州住房数据集（California Housing Dataset）源自1990年美国人口普查，由每个普查街区组的数据构成。该数据集由StatLib库提供，并被广泛应用于机器学习和数据科学领域，特别是用于房价预测模型的训练与评估。数据集的核心研究问题在于通过8个输入特征（如中位收入、房屋年龄、平均房间数等）预测加州地区的房价中位数。这一研究不仅有助于理解影响房价的关键因素，还为房地产市场的分析提供了宝贵的数据支持。

当前挑战

加州住房数据集在构建和应用过程中面临多项挑战。首先，数据集的特征选择过程复杂，需通过多种监督和非监督方法（如互信息回归、皮尔逊相关性、递归特征消除等）进行优化，以提高模型的预测精度。其次，数据集中的特征可能存在高维度和多重共线性问题，这增加了模型训练的难度。此外，数据集的样本量相对有限，可能影响模型的泛化能力。最后，数据集的实际应用需考虑市场动态和政策变化，这些外部因素可能对模型的预测结果产生显著影响。

常用场景

经典使用场景

加州住房数据集（California Housing Dataset）的经典使用场景主要集中在房地产市场的预测与分析。通过该数据集，研究者和从业者能够利用线性回归模型，结合中位收入、房屋面积、平均房间数等特征，精准预测加州地区的房价中位数。这一应用不仅有助于房地产市场的动态监控，还为投资者和政策制定者提供了科学依据，以优化资源配置和决策制定。

解决学术问题

加州住房数据集在学术研究中解决了多个关键问题，特别是在机器学习和统计学领域。该数据集通过提供详细的住房相关特征和房价数据，使得研究者能够深入探讨特征选择、模型优化和预测精度等核心议题。其丰富的数据结构和实际应用背景，为学术界提供了宝贵的实验平台，推动了相关理论和方法的发展。

衍生相关工作

加州住房数据集的广泛应用催生了众多相关研究和工作。例如，基于该数据集的特征选择方法研究，如Lasso回归和递归特征消除（RFE），显著提升了模型的预测性能。此外，数据集还被用于探索不同机器学习模型的比较研究，如线性回归、决策树和神经网络，进一步丰富了机器学习在房地产领域的应用理论和实践。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集