Boston Housing Dataset

github2020-01-21 更新2024-05-31 收录

下载链接：

https://github.com/SandhyaaGopchandani/BostonHousingDataset

下载链接

链接失效反馈

官方服务：

资源简介：

Boston Housing Dataset是一个包含波士顿房屋价格的数据集，每行代表一个县，每个变量代表该县的相关信息。数据集包含犯罪率、房屋所有者的年龄、非零售业务区域（INDUS）、平均房间数、城镇的学生与教师比例、该地区低收入人群的百分比等信息。该数据集主要用于预测房屋价格，但本仓库的目的是使用所有其他特征作为模型参数来预测犯罪率。

The Boston Housing Dataset is a collection of data pertaining to housing prices in Boston, where each row represents a town and each variable represents relevant information about that town. The dataset includes factors such as crime rate, the age of homeowners, the proportion of non-retail business areas (INDUS), the average number of rooms, the student-teacher ratio in the town, and the percentage of low-income residents in the area. Primarily used for predicting housing prices, the purpose of this repository is to utilize all other features as model parameters to predict the crime rate.

创建时间：

2019-05-27

原始信息汇总

Boston Housing Dataset: Crime Rate Prediction 概述

数据集描述

数据集名称：Boston Housing Dataset
数据集用途：主要用于预测波士顿地区的房价，但本项目旨在使用其他特征预测犯罪率。
数据集大小：包含506行数据，14个特征。
特征类型：所有特征均为连续型，适用于回归分析。
数据质量：数据集无缺失值，但特征间存在不同的尺度范围，需要进行特征缩放。

预测任务

特征选择：采用了多种方法进行特征选择，包括单变量特征选择、递归特征选择和随机森林回归器。
特征缩放：使用了标准化和归一化技术对特征进行缩放，以改善模型性能。
模型训练：在特征选择后，使用选定的特征（如RAD, MEDV, RM）训练模型。
模型评估：通过10折交叉验证和测试集评估模型性能，主要关注均方误差（MSE）。

模型性能

训练模型：训练了3种线性模型（线性回归、LASSO、岭回归）和4种非线性模型（决策树回归、支持向量回归等）。
性能比较：线性回归和支持向量回归（SVR）RBF表现较好，线性回归在所有方法中表现最佳。
数据缩放影响：归一化数据相比标准化数据在模型性能上有所提升。

结论

最佳模型：线性回归模型在所有测试方法中表现最佳。
数据处理影响：特征缩放对模型性能有显著影响，归一化数据处理后的模型性能优于标准化数据处理。

搜集汇总

数据集介绍

构建方式

Boston Housing Dataset是一个涵盖波士顿地区房价及多方面相关因素的数据集。该数据集通过收集波士顿不同地区的住房价格及其相关特征构建而成，每一条记录代表一个地区，包含了犯罪率、房屋所有者年龄、非零售商业用地比例、房间平均数量、师生比、区域低收入人口比例等14个特征变量。数据集的构建基于实际住房市场数据，旨在为住房价格预测或犯罪率预测提供数据支持。

使用方法

使用该数据集时，首先需进行特征缩放，包括标准化和归一化处理，以适应不同模型的尺度要求。数据集支持多种特征选择方法，如单变量特征选择、递归特征选择和随机森林回归方法。为防止过拟合，可通过交叉验证和不同的模型评估方法来优化模型性能。具体使用中，可通过Jupyter笔记本文件中的代码和图表进行数据探索和模型训练，以比较不同模型的性能表现。

背景与挑战

背景概述

Boston Housing Dataset是一项备受瞩目的数据集，收集了波士顿地区住房价格的相关数据。该数据集由506个样本构成，每个样本代表一个地区，包含14个特征变量，如犯罪率、房主年龄、非零售商业区域比例、房间平均数、师生比例以及低收入人群比例等。该数据集主要被用于预测住房价格，但在本研究中，研究者旨在利用所有其他特征变量作为模型参数来预测犯罪率。该数据集的创建并非旨在解决特定研究问题，而是作为机器学习和统计模型的实验场，自诞生以来，对住房价格预测和特征选择等领域的研究产生了深远影响。

当前挑战

在利用Boston Housing Dataset进行犯罪率预测的研究中，面临了多项挑战。首先，数据集中的特征变量规模不一，需要对特征集进行标准化处理以消除偏差。其次，特征选择是避免模型过拟合和降低模型复杂性的关键步骤，但如何有效地从众多特征中筛选出与响应变量关系最为密切的特征仍是一大挑战。此外，数据集规模相对较小，可能导致模型泛化能力不足。在模型训练过程中，还需克服过拟合问题，并对比不同模型在标准化和归一化数据上的性能差异，以寻求最优的模型配置。

常用场景

经典使用场景

Boston Housing Dataset作为经典的数据集，在机器学习和数据科学领域被广泛用于回归分析的教学与研究中。该数据集通过整合波士顿地区各县的房价及相关社会经济特征，如犯罪率、房屋所有者年龄、商业用地比例等，为研究者提供了一个预测房价或犯罪率的理想平台。其经典使用场景在于，通过特征选择和模型构建，研究者能够探索不同特征与房价或犯罪率之间的关系，进而预测未知区域的房价或犯罪水平。

解决学术问题

该数据集解决了多个学术研究问题，包括但不限于特征选择优化、模型过拟合问题、数据标准化方法的选择等。通过对Boston Housing Dataset的分析，研究者能够更好地理解不同回归模型在处理小规模、特征异质数据时的表现和适用性，从而推动统计模型选择和评估方法的发展。此外，该数据集对于理解社会经济因素如何影响住房市场具有重要的理论和实际意义。

实际应用

在实际应用层面，Boston Housing Dataset的分析结果可被用于指导城市规划和政策制定。例如，通过分析犯罪率与住房价格的关系，政府机构可以更有效地分配资源，改善高犯罪率区域的居住环境，同时制定合理的住房市场政策。此外，房地产分析师和投资者可利用数据集进行市场趋势分析，以做出更为明智的投资决策。

数据集最近研究