five

Boston House Prices

收藏
github2024-04-12 更新2024-05-31 收录
下载链接:
https://github.com/stdlib-js/datasets-harrison-boston-house-prices
下载链接
链接失效反馈
资源简介:
一个数据集,源自美国人口普查局收集的关于马萨诸塞州波士顿住房的信息(1978年)。

A dataset derived from information collected by the U.S. Census Bureau regarding housing in Boston, Massachusetts (1978).
创建时间:
2021-06-16
原始信息汇总

Boston House Prices 数据集概述

数据集描述

  • 来源: 该数据集源自美国人口普查局收集的关于马萨诸塞州波士顿住房的信息(1978年)。
  • 内容: 包含14个属性,用于描述波士顿不同地区的住房特征。

属性列表

  1. crim: 每城镇人均犯罪率
  2. zn: 超过25,000平方英尺的住宅用地比例
  3. indus: 每城镇非零售业务土地比例
  4. chas: Charles River虚拟变量(边界河流为1,否则为0)
  5. nox: 氮氧化物浓度(百万分之几)
  6. rm: 每个住宅的平均房间数
  7. age: 1940年前建造的自有住宅比例
  8. dis: 到五个波士顿就业中心的加权距离
  9. rad: 径向高速公路的可达性指数
  10. tax: 每$10,000的全值财产税率
  11. ptratio: 城镇的师生比例
  12. b: 1000(Bk-0.63)^2,其中Bk是城镇黑人比例
  13. lstat: 人口低地位百分比
  14. medv: 自有住宅的中位数价值(以$1000计)

数据集用途

  • 预测变量: 可用于预测两个依赖变量:1) 氮氧化物水平和2) 中位数住宅价值。
  • 特殊注意: 中位数住宅价值字段似乎在$50,000处被审查。

安装与使用

安装

bash npm install @stdlib/datasets-harrison-boston-house-prices

使用示例

javascript var dataset = require( @stdlib/datasets-harrison-boston-house-prices );

var data = dataset(); /* returns [ { crim: 0.00632, zn: 18.00, indus: 2.310, chas: 0, nox: 0.5380, rm: 6.5750, age: 65.20, dis: 4.0900, rad: 1, tax: 296.0, ptratio: 15.30, b: 396.90, lstat: 4.98, medv: 24.00 }, ... ] */

数据集注意事项

  • 数据集包含8个错误的中位数值,如[Gilley和Pace (1996)][@gilley:1996a]所述。

参考文献

  • Harrison, David, and Daniel L Rubinfeld. 1978. "Hedonic housing prices and the demand for clean air." Journal of Environmental Economics and Management 5 (1): 81–102. doi:[10.1016/0095-0696(78)90006-2][@harrison:1978a].
  • Gilley, Otis W., and R.Kelley Pace. 1996. "On the Harrison and Rubinfeld Data." Journal of Environmental Economics and Management 31 (3): 403–5. doi:[10.1006/jeem.1996.0052][@gilley:1996a].
AI搜集汇总
数据集介绍
main_image_url
构建方式
波士顿房价数据集源自美国人口普查局于1978年收集的关于波士顿地区住房的信息。该数据集通过收集14个与住房相关的属性,包括犯罪率、住宅用地比例、非零售业务用地比例、查尔斯河虚拟变量、一氧化氮浓度、每户平均房间数、1940年以前建造的自住单位比例、到波士顿五个就业中心的加权距离、高速公路可达性指数、房产税率、学生与教师的比例、黑人比例指数、人口的较低社会地位比例以及自住房屋的中位数价值,构建了一个全面的住房数据集。这些数据为研究波士顿地区的住房市场提供了丰富的信息基础。
特点
波士顿房价数据集具有多个显著特点。首先,数据集包含了14个详细的属性,涵盖了从犯罪率到房产税率等多个方面,为研究者提供了多维度的分析视角。其次,数据集可以用于预测两个关键变量:一氧化氮浓度和房屋中位数价值,这使得它在环境经济学和房地产研究中具有重要应用价值。此外,数据集中的中位数房屋价值字段存在上限值50.00(即50,000美元),这表明数据可能存在一定的截断现象,为研究者提供了进一步探讨数据完整性的机会。
使用方法
波士顿房价数据集可以通过多种方式使用。首先,研究者可以通过安装相应的npm包(如@stdlib/datasets-harrison-boston-house-prices)来获取数据集,并在JavaScript环境中进行分析。其次,数据集支持多种输出格式,包括CSV和NDJSON,这使得它能够适应不同的数据处理需求。此外,数据集还提供了CLI工具,允许用户通过命令行直接访问和处理数据。通过这些灵活的使用方式,研究者可以轻松地将数据集应用于各种研究场景,如回归分析、数据可视化等。
背景与挑战
背景概述
波士顿房价数据集(Boston House Prices)源自1978年美国人口普查局对马萨诸塞州波士顿地区住房信息的收集。该数据集由David Harrison和Daniel L. Rubinfeld在研究空气清洁需求与住房价格的关系时创建,发表于《环境经济学与管理杂志》。数据集包含14个属性,涵盖了犯罪率、住宅用地比例、非零售商业用地比例、河流邻近性、氮氧化物浓度、房间数量、房屋年龄、就业中心距离、高速公路可达性、房产税率、师生比例、黑人比例、低收入人口比例以及房屋中位数价格等。该数据集在房地产经济学和环境经济学领域具有重要影响力,尤其在研究住房价格与环境因素的关系方面提供了宝贵的实证数据。
当前挑战
波士顿房价数据集在构建过程中面临多项挑战。首先,数据集的原始来源涉及多个复杂的社会经济变量,如何准确收集和编码这些信息是一个重要难题。其次,数据集中存在部分数据被截断的现象,尤其是房屋中位数价格被限制在50,000美元以内,这可能导致模型在预测高价值房屋时的偏差。此外,数据集中还存在8个错误编码的中位数价格,这进一步增加了数据清洗和处理的复杂性。最后,该数据集的应用领域广泛,涉及房地产、环境经济学等多个学科,如何在不同领域中有效利用该数据集并避免潜在的偏差,是研究者面临的主要挑战。
常用场景
经典使用场景
波士顿房价数据集的经典使用场景主要集中在房地产市场的预测与分析领域。通过分析数据集中的多个特征,如犯罪率、住宅用地比例、平均房间数等,研究者可以构建回归模型,预测波士顿地区房屋的中位数价格。这一应用不仅为房地产市场的参与者提供了决策支持,也为城市规划和政策制定者提供了有价值的参考。
实际应用
波士顿房价数据集在实际应用中具有广泛的适用性。房地产开发商可以利用该数据集预测不同区域的房价趋势,从而优化投资决策。政府机构则可以通过分析数据集中的社会经济指标,制定更有效的住房政策和城市规划方案。此外,金融机构也可以利用该数据集评估抵押贷款的风险,确保金融市场的稳定。
衍生相关工作
波士顿房价数据集的广泛应用催生了许多相关研究工作。例如,Harrison和Rubinfeld的研究探讨了房价与空气质量之间的关系,为环境经济学提供了新的视角。此外,Gilley和Pace对该数据集进行了修正,解决了数据中的编码错误问题,进一步提升了数据集的可靠性。这些研究不仅丰富了数据集的应用场景,也为后续的学术研究奠定了坚实的基础。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作