five

boston dataset|房地产分析数据集|房价预测数据集

收藏
github2019-05-12 更新2024-05-31 收录
房地产分析
房价预测
下载链接:
https://github.com/shamim-io/SGD-on-boston-dataset
下载链接
链接失效反馈
资源简介:
波士顿郊区房价数据集,包含506个样本和14个变量,如犯罪率、住宅用地比例、非零售商业用地比例等,目标变量为房屋的中位价值。

The Boston Suburbs Housing Price Dataset comprises 506 samples and 14 variables, including crime rate, proportion of residential land, proportion of non-retail business land, etc. The target variable is the median value of the houses.
创建时间:
2019-05-10
原始信息汇总

SGD-on-boston-dataset

数据集概述

  • 名称: SGD-on-boston-dataset
  • 描述: 该数据集用于波士顿地区的住房价值分析,其中medv变量为目标变量。

数据结构

  • 行数: 506
  • 列数: 14

数据字段

  1. crim - 城镇人均犯罪率
  2. zn - 超过25,000平方英尺的住宅用地比例
  3. indus - 城镇非零售业务土地比例
  4. chas - Charles River虚拟变量(边界河流为1,否则为0)
  5. nox - 氮氧化物浓度(百万分之几)
  6. rm - 每栋住宅的平均房间数
  7. age - 1940年前建造的自有住宅比例
  8. dis - 到五个波士顿就业中心的加权平均距离
  9. rad - 放射状高速公路的可达性指数
  10. tax - 每10,000美元的全值财产税率
  11. ptratio - 城镇的师生比例
  12. black - 1000(Bk - 0.63)^2,其中Bk是城镇黑人比例
  13. lstat - 人口低地位百分比
  14. medv - 自有住宅的中位数价值(以1000美元计)

数据来源

  • 参考文献: Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81–102.
AI搜集汇总
数据集介绍
main_image_url
构建方式
boston dataset是基于波士顿郊区住房价值的一个经典数据集,其构建方法涉及从多个维度收集住房特征与地理信息,包括犯罪率、住宅用地比例、商业用地比例、Charles河的虚拟变量、氮氧化物浓度、房间数、建筑年代、距离就业中心的距离、高速公路可达性指数、税率、师生比、黑人比例、人口地位和住房中位数。这些数据经过整合,形成了包含506个样本、14个特征的完整数据框架。
特点
该数据集的特点在于其详尽的地理与社会科学属性,它不仅涵盖了住房本身的物理特征,还包含了周边环境的社会经济状况,为研究住房价格影响因素提供了全面的视角。此外,数据集来源可靠,经受了时间的考验,成为多个领域研究的基础数据集。
使用方法
使用boston dataset时,用户可以通过各种数据分析工具进行探索性分析,例如计算各特征的统计量,或利用可视化工具绘制散点图、箱线图等。对于建模任务,该数据集可直接用于回归分析,如支持向量机回归(SGD),以预测住房中位数(medv)。用户需确保对数据集中的特征有充分理解,并适当处理缺失值或异常值,以保证模型的准确性和健壮性。
背景与挑战
背景概述
波士顿数据集(boston dataset)起源于1978年,由Harrison D.与Rubinfeld D.L.在研究环境经济学中的享乐价格问题时创建。该数据集收集了波士顿郊区506个地区的14项属性,旨在探索住房价值与多种因素的关系。数据集的核心研究问题是分析不同社会经济和环境因素如何影响住房价格。该数据集对后续的统计学习、回归分析以及机器学习算法研究产生了深远的影响,成为评估和比较各种回归模型的经典案例。
当前挑战
在构建波士顿数据集的过程中,研究人员面临的挑战主要在于数据的收集和预处理。数据收集过程中,需要克服不同来源数据的异构性和不完整性。而在预处理阶段,如何处理缺失值、异常值和共线性问题,是确保数据质量和分析准确性的关键。此外,波士顿数据集解决的领域问题是住房价格预测,其中的挑战包括如何从多维数据中提取有效的特征,以及如何构建和优化回归模型以实现更高的预测精度。
常用场景
经典使用场景
在机器学习领域,波士顿房价数据集(boston dataset)被广泛用于回归分析的经典场景。该数据集提供了波士顿地区各城镇的住房价值与其社会经济属性之间的关联,是研究和评估回归模型性能的重要基准。
实际应用
在实际应用中,波士顿房价数据集可用于房地产市场分析和预测,帮助投资者和政府机构评估地段价值,制定投资和土地使用政策。
衍生相关工作
该数据集衍生了众多相关工作,包括但不限于对房价预测模型的改进、特征重要性的研究,以及结合最新机器学习技术如深度学习对该数据集进行的分析,推动了相关领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Data_on_Data_Analysts

我们正在探索数据分析师职位的就业市场趋势:需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息,直接来源于Google的职位搜索结果。数据收集始于2022年11月4日,并持续增长,每天新增约100个职位信息,提供了当前就业市场的持续更新快照。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

Pet Disease images

Comprehensive Image Dataset for Detecting Pet Diseases Across Multiple Species

kaggle 收录