Boston Housing Dataset

github2020-05-30 更新2024-05-31 收录

下载链接：

https://github.com/abhisngh/Regression-Boston-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含波士顿马萨诸塞州地区的房价数据，用于预测新房屋的售价。数据集包含506个实例，13个预测属性和1个目标属性（中位数价值）。属性包括犯罪率、土地比例、商业用地比例、查尔斯河虚拟变量、氮氧化物浓度、平均房间数、房屋年龄、就业中心距离、高速公路可达性指数、房产税率、师生比例、黑人比例、低收入阶层比例和中位数房价。

This dataset encompasses housing price data from the Boston, Massachusetts area, utilized for predicting the sale prices of new homes. The dataset comprises 506 instances, with 13 predictive attributes and one target attribute (median value). The attributes include crime rate, proportion of land, proportion of commercial land, Charles River dummy variable, nitric oxides concentration, average number of rooms, age of the house, distance to employment centers, highway accessibility index, property tax rate, pupil-teacher ratio, proportion of Black population, proportion of lower status population, and median house price.

创建时间：

2018-09-17

原始信息汇总

数据集概述

数据集名称

Boston Housing Dataset-Regression

数据集用途

用于预测波士顿地区新房屋的售价。

数据集特征

实例数量: 506
属性数量: 13个预测属性（13个数值/分类预测属性）
目标属性: 中位数价值（属性14）

属性信息

CRIM: 城镇人均犯罪率
ZN: 住宅用地超过25,000平方英尺的比例
INDUS: 城镇非零售营业面积的比例
CHAS: 查尔斯河虚拟变量（河流边界为1，否则为0）
NOX: 一氧化氮浓度（百万分之几）
RM: 每个住宅的平均房间数
AGE: 1940年之前建造的自住单位比例
DIS: 到波士顿五个就业中心的加权距离
RAD: 径向高速公路的可达性指数
TAX: 每10,000美元的全值财产税率
PTRATIO: 城镇师生比例
B: 1000(Bk - 0.63)^2，其中Bk是城镇黑人比例
LSTAT: 低地位人口百分比
MEDV: 自住房屋的中位数价值（以1000美元计）

数据集创建者

Harrison, D. 和 Rubinfeld, D.L.

数据集来源

源自UCI ML housing数据集，可通过以下链接访问：https://archive.ics.uci.edu/ml/machine-learning-databases/housing/

数据集使用模型

线性回归
Lasso回归
随机森林回归器

数据集支持的Python版本

Python 3.5+

使用的库

Pandas
Matplotlib
Sklearn
Numpy
Seaborn

搜集汇总

数据集介绍

构建方式

Boston Housing Dataset的构建基于对波士顿地区住房价格的详细调查，涵盖了506个实例和13个预测性属性。这些数据由Harrison和Rubinfeld于1978年收集，并用于研究环境经济学与管理领域。数据集的每个属性，如犯罪率、住宅用地比例、非零售业务面积比例等，均经过精心设计，以全面反映影响住房价格的多维度因素。该数据集最初由StatLib库维护，现已被广泛应用于机器学习领域的回归问题研究。

特点

Boston Housing Dataset以其丰富的属性和广泛的应用性著称。数据集包含13个数值和分类预测变量，以及一个目标变量MEDV，表示房屋的中位数价格。其特点在于数据的高质量和无缺失值，为研究者提供了理想的研究基础。此外，该数据集在多个机器学习论文中被用作回归问题的基准，展示了其在学术研究中的重要地位。

使用方法

使用Boston Housing Dataset时，研究者可通过加载数据集并应用多种回归模型，如线性回归、Lasso回归和随机森林回归，来预测房屋价格。数据集的分析和建模过程通常在Jupyter Notebook中进行，利用Pandas、Matplotlib、Sklearn等库进行数据处理和可视化。研究者应首先进行数据探索，然后通过实现回归模型来评估其预测性能。

背景与挑战

背景概述

波士顿房价数据集（Boston Housing Dataset）是由Harrison和Rubinfeld于1978年创建的，旨在研究波士顿地区的房价与环境因素之间的关系。该数据集最初由卡内基梅隆大学的StatLib库维护，并被广泛应用于机器学习领域的回归问题研究。数据集包含506个实例，每个实例有13个特征，主要用于预测房屋的中位数价格。该数据集的核心研究问题是通过分析房屋特征与价格之间的关系，探索影响房价的主要因素。由于其在回归问题中的广泛应用，波士顿房价数据集已成为机器学习领域的经典数据集之一，对后续研究产生了深远影响。

当前挑战

波士顿房价数据集在应用过程中面临多个挑战。首先，数据集的特征维度较高，且部分特征之间存在多重共线性，这增加了模型选择的复杂性。其次，数据集的样本量相对较小，可能导致模型在泛化能力上的不足。此外，数据集中的某些特征（如种族比例）可能引发伦理问题，限制了其在某些场景下的应用。在构建过程中，研究人员需要处理特征选择、数据标准化等问题，以确保模型的准确性和鲁棒性。这些挑战使得波士顿房价数据集在实际应用中需要更为精细的模型设计和调优。

常用场景

经典使用场景

Boston Housing Dataset 的经典使用场景主要集中在房地产市场预测与分析领域。通过该数据集，研究者可以利用线性回归、Lasso回归和随机森林回归等模型，对波士顿地区的房屋价格进行精准预测。这些模型不仅能够帮助房地产从业者评估新房产的市场价值，还能为政策制定者提供数据支持，以优化住房政策和市场调控策略。

衍生相关工作

Boston Housing Dataset 的广泛应用催生了许多相关的经典研究工作。例如，基于该数据集的回归分析研究，推动了线性回归、Lasso回归和随机森林回归等模型的优化和发展。此外，该数据集还被用于探索特征选择和正则化技术在实际问题中的应用效果。在学术界，许多关于回归诊断和模型评估的研究也以此数据集为基础，进一步推动了机器学习理论的深入发展。

数据集最近研究