boston dataset
收藏github2019-05-12 更新2024-05-31 收录
下载链接:
https://github.com/shamim-io/SGD-on-boston-dataset
下载链接
链接失效反馈官方服务:
资源简介:
波士顿郊区房价数据集,包含506个样本和14个变量,如犯罪率、住宅用地比例、非零售商业用地比例等,目标变量为房屋的中位价值。
The Boston Suburbs Housing Price Dataset comprises 506 samples and 14 variables, including crime rate, proportion of residential land, proportion of non-retail business land, etc. The target variable is the median value of the houses.
创建时间:
2019-05-10
原始信息汇总
SGD-on-boston-dataset
数据集概述
- 名称: SGD-on-boston-dataset
- 描述: 该数据集用于波士顿地区的住房价值分析,其中
medv变量为目标变量。
数据结构
- 行数: 506
- 列数: 14
数据字段
- crim - 城镇人均犯罪率
- zn - 超过25,000平方英尺的住宅用地比例
- indus - 城镇非零售业务土地比例
- chas - Charles River虚拟变量(边界河流为1,否则为0)
- nox - 氮氧化物浓度(百万分之几)
- rm - 每栋住宅的平均房间数
- age - 1940年前建造的自有住宅比例
- dis - 到五个波士顿就业中心的加权平均距离
- rad - 放射状高速公路的可达性指数
- tax - 每10,000美元的全值财产税率
- ptratio - 城镇的师生比例
- black - 1000(Bk - 0.63)^2,其中Bk是城镇黑人比例
- lstat - 人口低地位百分比
- medv - 自有住宅的中位数价值(以1000美元计)
数据来源
- 参考文献: Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81–102.
搜集汇总
数据集介绍

构建方式
boston dataset是基于波士顿郊区住房价值的一个经典数据集,其构建方法涉及从多个维度收集住房特征与地理信息,包括犯罪率、住宅用地比例、商业用地比例、Charles河的虚拟变量、氮氧化物浓度、房间数、建筑年代、距离就业中心的距离、高速公路可达性指数、税率、师生比、黑人比例、人口地位和住房中位数。这些数据经过整合,形成了包含506个样本、14个特征的完整数据框架。
特点
该数据集的特点在于其详尽的地理与社会科学属性,它不仅涵盖了住房本身的物理特征,还包含了周边环境的社会经济状况,为研究住房价格影响因素提供了全面的视角。此外,数据集来源可靠,经受了时间的考验,成为多个领域研究的基础数据集。
使用方法
使用boston dataset时,用户可以通过各种数据分析工具进行探索性分析,例如计算各特征的统计量,或利用可视化工具绘制散点图、箱线图等。对于建模任务,该数据集可直接用于回归分析,如支持向量机回归(SGD),以预测住房中位数(medv)。用户需确保对数据集中的特征有充分理解,并适当处理缺失值或异常值,以保证模型的准确性和健壮性。
背景与挑战
背景概述
波士顿数据集(boston dataset)起源于1978年,由Harrison D.与Rubinfeld D.L.在研究环境经济学中的享乐价格问题时创建。该数据集收集了波士顿郊区506个地区的14项属性,旨在探索住房价值与多种因素的关系。数据集的核心研究问题是分析不同社会经济和环境因素如何影响住房价格。该数据集对后续的统计学习、回归分析以及机器学习算法研究产生了深远的影响,成为评估和比较各种回归模型的经典案例。
当前挑战
在构建波士顿数据集的过程中,研究人员面临的挑战主要在于数据的收集和预处理。数据收集过程中,需要克服不同来源数据的异构性和不完整性。而在预处理阶段,如何处理缺失值、异常值和共线性问题,是确保数据质量和分析准确性的关键。此外,波士顿数据集解决的领域问题是住房价格预测,其中的挑战包括如何从多维数据中提取有效的特征,以及如何构建和优化回归模型以实现更高的预测精度。
常用场景
经典使用场景
在机器学习领域,波士顿房价数据集(boston dataset)被广泛用于回归分析的经典场景。该数据集提供了波士顿地区各城镇的住房价值与其社会经济属性之间的关联,是研究和评估回归模型性能的重要基准。
实际应用
在实际应用中,波士顿房价数据集可用于房地产市场分析和预测,帮助投资者和政府机构评估地段价值,制定投资和土地使用政策。
衍生相关工作
该数据集衍生了众多相关工作,包括但不限于对房价预测模型的改进、特征重要性的研究,以及结合最新机器学习技术如深度学习对该数据集进行的分析,推动了相关领域的研究进展。
以上内容由遇见数据集搜集并总结生成



