Boston-Housing dataset

github2020-05-07 更新2024-05-31 收录

下载链接：

https://github.com/IMsumitkumar/Boston-Housing-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了关于马萨诸塞州波士顿地区房价的数据，用于预测新房销售价格。数据集包含506个实例，详细记录了如犯罪率、土地使用率、非零售业务比例、查尔斯河虚拟变量、氮氧化物浓度、每栋房屋的平均房间数、房屋建造年份、到就业中心的加权距离、高速公路可达性指数、房产税率、师生比例、黑人比例、低收入群体比例以及房屋中位价值等属性。

This dataset encompasses data on housing prices in the Boston area of Massachusetts, intended for predicting the sales prices of new homes. The dataset comprises 506 instances, meticulously documenting attributes such as crime rate, land use ratio, proportion of non-retail businesses, Charles River dummy variable, nitric oxides concentration, average number of rooms per dwelling, age of the building, weighted distances to employment centers, highway accessibility index, property tax rate, pupil-teacher ratio, proportion of Black residents, proportion of lower-income population, and median value of owner-occupied homes.

创建时间：

2020-05-07

原始信息汇总

Boston Housing Dataset - Regression

数据集特征

实例数量: 506
属性信息:
- CRIM: 城镇人均犯罪率
- ZN: 超过25,000平方英尺的住宅用地比例
- INDUS: 非零售商业用地比例
- CHAS: 查尔斯河虚拟变量（边界河流为1，否则为0）
- NOX: 氮氧化物浓度（百万分之几）
- RM: 每个住宅的平均房间数
- AGE: 1940年之前建造的自住单位比例
- DIS: 到五个波士顿就业中心的加权距离
- RAD: 放射状高速公路的可达性指数
- TAX: 每10,000美元的全值财产税率
- PTRATIO: 城镇的师生比例
- B: 1000(Bk - 0.63)^2，其中Bk是城镇黑人比例
- LSTAT: 低收入阶层的人口百分比
- MEDV: 自住房屋的中位数价值（以$1000计）
缺失属性值: 无

使用的回归模型

线性回归
随机森林回归
Lasso回归

支持的Python版本

Python 3.5+

使用的库

pandas
numpy
matplotlib
sklearn
seaborn

数据集来源

Kaggle

搜集汇总

数据集介绍

构建方式

波士顿房价数据集（Boston-Housing dataset）的构建基于对波士顿地区住房价格的详细调查，涵盖了506个样本实例。该数据集通过收集多个与住房相关的属性信息，如每镇的犯罪率、住宅用地比例、非零售业务用地比例等，构建了一个多维度的特征空间。这些特征经过精心设计，旨在捕捉影响房价的关键因素，从而为回归分析提供丰富的数据支持。

特点

波士顿房价数据集的显著特点在于其简洁而全面的特征设计，涵盖了从社会经济指标到地理环境等多个方面的信息。数据集包含13个属性，每个属性都经过精心挑选，以确保其对房价预测的潜在影响。此外，数据集的实例数量适中，既保证了分析的深度，又避免了过大的计算负担，使其成为回归分析的理想选择。

使用方法

使用波士顿房价数据集进行分析时，用户可以采用多种回归模型，如线性回归、随机森林回归和Lasso回归。首先，通过加载数据集并进行必要的预处理，用户可以利用Python中的pandas、numpy等库进行数据清洗和特征工程。随后，选择合适的回归模型进行训练和测试，以预测房价。通过调整模型参数和评估指标，用户可以优化模型的性能，并得出对房价的准确预测。

背景与挑战

背景概述

波士顿房价数据集（Boston Housing Dataset）是一个经典的数据集，广泛应用于机器学习和统计学领域，特别是回归分析。该数据集由美国统计学家哈里森（Harrison）和鲁宾菲尔德（Rubinfeld）于1978年创建，旨在研究波士顿地区房价与多个影响因素之间的关系。数据集包含506个样本，每个样本包含13个特征，如犯罪率、住宅用地比例、氮氧化物浓度等，以及目标变量——房屋的中位数价格（以千美元计）。该数据集的创建为研究房价预测提供了基础，并在机器学习领域中被广泛用于评估回归模型的性能。

当前挑战

波士顿房价数据集在应用中面临多个挑战。首先，数据集的样本量相对较小，仅有506个实例，这可能导致模型在处理大规模数据时的泛化能力受限。其次，数据集的特征之间可能存在多重共线性，这会影响回归模型的稳定性和解释性。此外，数据集中的某些特征，如种族比例（B），在现代数据伦理背景下可能引发争议，限制了其在某些研究中的应用。最后，尽管数据集没有缺失值，但特征的分布和尺度差异较大，需要进行适当的预处理以提高模型的性能。

常用场景

经典使用场景

波士顿房价数据集（Boston-Housing dataset）的经典使用场景主要集中在房地产市场的价格预测。通过分析数据集中的多个特征，如犯罪率、住宅用地比例、非零售业务用地比例等，研究者可以构建回归模型，预测波士顿地区新房屋的销售价格。常用的回归模型包括线性回归、随机森林回归和Lasso回归，这些模型能够有效捕捉特征与房价之间的复杂关系，为房地产市场提供科学的定价依据。

衍生相关工作

波士顿房价数据集的广泛应用催生了许多相关研究工作。例如，研究者基于该数据集开发了多种改进的回归算法，如结合深度学习的房价预测模型，进一步提升了预测精度。此外，该数据集还被用于教学和培训，成为机器学习入门课程中的经典案例。在学术界，波士顿房价数据集还激发了对特征重要性和模型解释性的深入研究，推动了可解释人工智能（XAI）领域的发展。

数据集最近研究