Boston home price dataset

github2019-06-06 更新2024-05-31 收录

下载链接：

https://github.com/krpiyush5/SGD-on-Boston-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含506行和14列，涵盖了波士顿地区的犯罪率、住宅用地比例、非零售商业用地比例、查尔斯河边界变量、氮氧化物浓度、平均房间数、住宅建设年份、到就业中心的加权平均距离、高速公路可达性指数、物业税率、师生比例、黑人比例、人口低地位比例以及自有住宅的中间价值。

This dataset contains 506 rows and 14 columns, covering the following attributes for the Boston area: crime rate, proportion of residential land, proportion of non-retail business land, Charles River dummy variable, nitrogen oxides concentration, average number of rooms per dwelling, year of house construction, weighted mean distance to employment centers, highway accessibility index, property tax rate, pupil-teacher ratio, proportion of Black residents, proportion of lower socioeconomic status population, and median value of owner-occupied homes.

创建时间：

2019-03-14

原始信息汇总

SGD-on-Boston-Dataset

数据描述

数据集名称: Boston home price dataset
数据集大小: 506行，14列
数据集特征:
- crim: 每城镇人均犯罪率
- zn: 超过25,000平方英尺的住宅用地比例
- indus: 每城镇非零售业务土地比例
- chas: Charles River虚拟变量（=1如果地块与河流接壤；否则为0）
- nox: 氮氧化物浓度（每1000万份）
- rm: 每个住宅的平均房间数
- age: 1940年前建造的自住单元比例
- dis: 到五个波士顿就业中心的加权平均距离
- rad: 到径向高速公路的可达性指数
- tax: 每10,000美元的全值财产税率
- ptratio: 城镇师生比例
- black: 1000(Bk - 0.63)^2，其中Bk是城镇黑人比例
- lstat: 人口较低社会地位的百分比
- medv: 自住房屋的中位数价值（以$1000计）

算法描述

线性回归: 尝试找到最佳超平面，通过最小化实际值与预测值之间的平方误差来确定最佳权重W和偏置b。
梯度下降: 一种迭代优化算法，用于寻找函数的最小值。在当前点，步长与函数梯度的负值成正比，以找到局部最小值。

优化目标

线性回归优化: 最小化平方损失，即实际值与预测值之间差的平方和。
梯度下降更新规则:
- W(j+1) = W(j) - r * (dL/dW)
- B(j+1) = B(j) - r * (dL/dB) 其中，r是学习率，dL/dW和dL/dB分别是损失函数关于权重W和偏置b的偏导数。

搜集汇总

数据集介绍

构建方式

Boston home price dataset 乃是一个经典的回归分析数据集，其构建基于波士顿地区住房市场中的多个变量。数据集涵盖506个样本点，每个样本点包括14个特征，如犯罪率、住宅用地比例、商业用地比例等，以及一个目标变量，即住宅的中位数价格。此数据集的构建遵循现实世界数据的采集方式，通过综合不同来源的统计数据，旨在为回归模型提供可靠的训练与测试基础。

特点

该数据集的特点在于其丰富的特征变量，涵盖了影响住房价格的多种社会经济因素，为研究住房价格的决定因素提供了多元视角。此外，数据集规模适中，便于在不同的计算资源条件下进行模型训练与验证。目标变量为连续的房价数据，适合进行回归分析，且数据集已经过清洗和标准化处理，降低了噪声和异常值的影响。

使用方法

使用Boston home price dataset时，首先需导入数据集，并对其进行适当的预处理，如归一化特征值。之后，可以利用数据集进行线性回归模型的训练，通过最小化均方误差来寻找最优的模型参数。此外，数据集也可用于评估不同回归算法的性能，如梯度下降法与sklearn库中的SGD回归器。用户需根据模型评估指标，如均方误差，来调整模型参数，以达到最佳的预测效果。

背景与挑战

背景概述

Boston home price dataset，简称BHP，是一个经典的回归分析数据集，创建于1970年代，由美国麻省理工学院（MIT）的理查德·弗里德曼（Richard Freedman）等人整理。该数据集汇聚了波士顿地区506个住宅小区的14个属性，包括犯罪率、住宅用地比例、商业用地比例、氮氧化物浓度、房间数、建造年份、距离就业中心的距离等，旨在研究住宅价格的影响因素。该数据集在机器学习领域，尤其是在回归分析的教学与研究中被广泛引用，对理解线性回归模型及其在现实世界中的应用具有重要意义。

当前挑战

尽管Boston home price dataset在学术界有着广泛的应用，研究者在使用该数据集时仍面临一些挑战。首先，数据集的规模相对较小，可能导致模型泛化能力不足。其次，数据集的部分属性可能存在多重共线性问题，这会影响模型的稳定性和解释性。此外，数据集的属性范围和分布可能限制模型的复杂性和适应性，对现实世界的复杂场景处理能力有限。在构建过程中，如何合理处理缺失值、异常值，以及如何选择合适的特征进行建模，也是研究者在应用该数据集时需要考虑的问题。

常用场景

经典使用场景

在机器学习领域，波士顿房价数据集（Boston home price dataset）常被用于演示线性回归模型的构建与优化过程。该数据集包含了波士顿地区房价及相关影响因素的数据，如犯罪率、住宅用地比例、商业用地比例等。经典的使用场景是将此数据集应用于线性回归模型的训练，通过调整模型参数以拟合最佳超平面，进而预测房价。

衍生相关工作

基于波士顿房价数据集的研究衍生出了许多相关工作，如改进的回归算法、特征选择方法以及数据预处理技术。此外，研究者还利用该数据集对机器学习模型的泛化能力进行测试，推动了机器学习领域的发展。

数据集最近研究