Boston House Price dataset

github2023-11-08 更新2024-05-31 收录

下载链接：

https://github.com/niketan108/SGD-for-Linear-Regression-on-Boston-House-Price-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含506个实例，13个预测性数值/分类属性。主要属性包括犯罪率、土地用途、商业用地比例、河流边界等，以及房屋的平均房间数、建筑年代、到就业中心的加权距离等。目标属性是房屋的中位价值。

This dataset comprises 506 instances with 13 predictive numerical/categorical attributes. Key attributes include crime rate, land use, proportion of commercial land, river boundaries, as well as the average number of rooms per dwelling, age of buildings, weighted distances to employment centers, among others. The target attribute is the median value of homes.

创建时间：

2019-03-06

原始信息汇总

数据集概述

基本信息

数据集名称: SGD-for-Linear-Regression-on-Boston-House-Price-dataset
实例数量: 506
属性数量: 13

属性详情

CRIM: 城镇人均犯罪率
ZN: 住宅用地所占比例，面积超过25,000平方英尺
INDUS: 非零售商业用地比例
CHAS: 查尔斯河虚拟变量（边界河=1，否则=0）
NOX: 一氧化氮浓度（百万分之几）
RM: 每个住宅的平均房间数
AGE: 1940年前建造的自住单位比例
DIS: 到波士顿五个就业中心的加权距离
RAD: 辐射状公路的可达性指数
TAX: 每10,000美元的全值财产税率
PTRATIO: 城镇中的学生与教师比例
B: 1000(Bk - 0.63)^2，其中Bk是城镇中黑人的比例
LSTAT: 低收入阶层的人口百分比
MEDV: 自住房屋的房价中位数，单位为千美元

目标变量

MEDV: 房价中位数，通常作为目标变量

搜集汇总

数据集介绍

构建方式

波士顿房价数据集（Boston House Price dataset）是通过收集美国波士顿地区506个城镇的房屋信息构建而成。该数据集包含了13个数值型或类别型的预测变量，涵盖了从犯罪率到房屋年龄等多个维度的信息。每个样本的标签为房屋的中位价值（MEDV），即房屋的中位数价格，单位为千美元。数据集的构建旨在为线性回归等机器学习模型提供基准数据，帮助研究者分析和预测房价的影响因素。

特点

波士顿房价数据集的特点在于其多维度的特征表示，涵盖了社会经济、环境、地理等多个方面的信息。例如，数据集中的特征包括城镇的人均犯罪率（CRIM）、住宅用地比例（ZN）、一氧化氮浓度（NOX）等，这些特征能够全面反映房屋价格的影响因素。此外，数据集中的目标变量（MEDV）为连续型数值，适合用于回归分析任务。数据集的多样性和丰富性使其成为房价预测领域的经典基准数据集。

使用方法

波士顿房价数据集通常用于线性回归模型的训练和评估。研究者可以通过该数据集探索不同特征对房价的影响，并构建预测模型。使用该数据集时，通常将13个特征作为输入变量，中位房价（MEDV）作为目标变量。通过划分训练集和测试集，研究者可以评估模型的预测性能。此外，该数据集还可用于特征选择、数据可视化等任务，帮助深入理解房价与各因素之间的关系。

背景与挑战

背景概述

波士顿房价数据集（Boston House Price dataset）是统计学和机器学习领域中一个经典的数据集，最早由美国人口普查局于1978年发布，并由卡内基梅隆大学的研究人员进一步整理和推广。该数据集包含了506个样本，涵盖了波士顿郊区13个与房价相关的特征变量，如犯罪率、住宅用地比例、一氧化氮浓度等，目标变量为房屋的中位价格。该数据集自发布以来，广泛用于线性回归、特征选择、模型评估等研究，成为机器学习算法验证的基准数据集之一。其影响力不仅体现在学术研究中，还为房地产市场的预测模型提供了重要的数据支持。

当前挑战

波士顿房价数据集在应用过程中面临多重挑战。首先，数据集中的特征变量具有不同的量纲和分布特性，如犯罪率与房屋年龄的数值范围差异显著，这给特征标准化和模型训练带来了复杂性。其次，某些特征变量之间存在较强的相关性，例如一氧化氮浓度与工业用地比例，可能导致多重共线性问题，影响模型的解释性和稳定性。此外，数据集中的某些特征变量（如种族比例）可能引发伦理争议，限制了其在某些场景下的应用。在构建过程中，研究人员还需处理数据缺失、异常值等问题，以确保模型的鲁棒性和泛化能力。

常用场景

经典使用场景

Boston House Price数据集广泛应用于线性回归模型的训练与测试中，尤其是在房地产价格预测领域。该数据集包含了波士顿地区房屋的多种属性，如犯罪率、房间数量、税率等，这些属性被用来预测房屋的中位价格。通过这一数据集，研究者能够深入理解各属性对房价的影响，并构建出高效的预测模型。

衍生相关工作

基于Boston House Price数据集，研究者们开发了多种经典的机器学习模型和算法。例如，线性回归、决策树、随机森林和神经网络等模型都在该数据集上进行了广泛测试和优化。这些工作不仅提升了房价预测的准确性，还为其他领域的数据分析提供了宝贵的经验和参考。

数据集最近研究