Mahammad42/miami-housing-cleaned
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Mahammad42/miami-housing-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
这是一个经过清洗的迈阿密房地产数据集,包含5,105行和11列(9个原始特征和2个派生特征)。目标变量是房屋销售价格(Price)。数据集中的特征包括房屋大小、房间数量、浴室数量、房产年龄、邻里区域、学校评分、到最近海滩的距离、洪水区域以及两个派生特征(每平方英尺价格和每千平方英尺房间数)。数据清洗步骤包括浴室标准化、区域名称标准化、洪水区域标准化以及添加派生特征。数据质量方面,没有缺失值或完全重复的行,但有2个价格异常值被保留。
A cleaned version of the Miami real estate dataset containing 5,105 rows and 11 columns (9 original features + 2 derived features). The target variable is house sale price (Price). Features include house size, number of rooms, number of bathrooms, property age, neighborhood zone, school rating, distance to nearest beach, flood zone designation, and two derived features (Price_Per_SqFt and Rooms_Per_SqFt). Cleaning steps applied include bathroom standardization, zone name standardization, flood zone standardization, and addition of derived features. Data quality notes indicate no missing values or exact duplicate rows, with 2 price outliers retained.
提供机构:
Mahammad42
搜集汇总
数据集介绍

构建方式
该数据集源自迈阿密房地产原始数据,经过系统化的清洗与增强处理而成。清洗流程包括将非标准的小数浴室数量四舍五入至最接近的0.5增量,以符合半浴室惯例;对区域名称去除空白并转换为标题格式;对洪泛区名称执行大写标准化。此外,基于原始变量生成了两个衍生特征:每平方英尺价格与每千平方英尺房间数,从而丰富了数据的分析维度。最终数据集包含5,105条记录与11个字段,无缺失值及重复行。
特点
数据集的核心特点在于其挑战性的回归任务设定。目标变量为房屋售价,范围横跨20万至565万美元,而各特征与价格间相关性极低,使得模型难以捕捉线性规律。数据涵盖面积、房间数、房龄、学区评分、海滩距离及洪泛区类型等多维属性,区域分布呈四个主导区与十五个细分邻里。值得注意的是,两个基于四分位法识别的高价异常值被保留作为合法高端物业,未予剔除。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用`load_dataset("Mahammad42/miami-housing-cleaned", split="train")`命令即可获取训练集,并直接转换为Pandas DataFrame格式进行后续分析。该数据集适用于多元线性回归、决策树、梯度提升机等回归模型,亦可用于特征工程与房价预测的基准测试研究,特别适合探索低相关性场景下的预测策略。
背景与挑战
背景概述
房地产价格预测是城市经济学与机器学习交叉领域的关键研究课题,其准确性对政策制定、投资决策及市场分析具有深远影响。Miami Housing Dataset (Cleaned) 是由研究者Mahammad42于2024年构建并发布在HuggingFace上的一个经过清洗的房地产数据集,其核心目标是为表格回归任务提供高质量、低偏差的训练样本。该数据集源自迈阿密房地产原始数据,包含5105条记录及11个特征变量,涵盖房屋面积、房间数、浴室数、房龄、学区评分、海滩距离及FEMA洪泛区划分等多元属性,以房价(Price)作为预测目标。通过系统性的数据清洗工作,该数据集解决了原始数据中浴室计数非标准化、区域名称杂乱等常见数据质量问题,并衍生出单位面积价格与单位面积房间数两个新特征,为探究影响迈阿密房价的关键因素提供了可靠基准。其发布推动了房地产领域特征工程与回归建模的规范化研究,尤其在城市洪灾风险与房价关联性分析方面具有重要参考价值。
当前挑战
该数据集所应对的领域挑战主要来自房地产价格预测的内在复杂性,即特征与目标变量间普遍存在的低相关性——数据集中各特征与房价的相关系数极低,这使得传统线性模型难以捕捉市场规律,亟需借助非线性模型、特征交互挖掘或空间经济学理论予以突破。此外,数据集还面临着价格分布高度偏斜且存在两个经IQR方法识别但仍被保留的合法豪宅极端值,这些离群点虽能反映真实市场现状,却容易导致模型对高价位区域过拟合或泛化能力退化。在构建过程中,研究者需应对浴室计数的标准化难题,原始数据包含3968条非标准小数记录(如2.2、3.7),需精确四舍五入至半整数倍以符合行业惯例;同时,区域名称和洪泛区编码的规范统一也需耗费大量精力,且19个街区类别中仅有4个主导区域样本量充足,其余15个特定社区各仅有5-10条记录,极度不平衡的类别分布给区域级特征建模带来了显著困难。
常用场景
经典使用场景
在房地产精准定价与价值评估这一经典研究领域,miami-housing-cleaned数据集被广泛用于构建和验证基于多维度特征的房价预测模型。其囊括了房屋物理属性、区位特征、教育配套及自然灾害风险等10项预测因子,尤其适合采用多元线性回归、梯度提升树或深度神经网络等算法,对迈阿密都市圈的住宅交易价格进行回归分析。研究者常以平方英尺单价或总价为响应变量,探究面积、房龄、学区评分及海滩距离等变量对房价的非线性影响,从而揭示热带滨海城市住房市场的独特定价逻辑。
实际应用
在实际应用层面,该数据集为银行抵押贷款自动估值系统、房地产税基评估引擎以及在线房源智能推荐平台提供了可靠的训练与验证基准。例如,贷款机构可基于房龄、学区评级和洪水区风险构建违约概率模型,精准区分高风险与优质抵押资产;房产经纪公司则能利用每平方英尺单价和房间密度等衍生特征,向购房者实时推送与其预算及偏好高度匹配的房源清单。此外,城市灾害管理部门亦能借助其预测结果,量化不同洪泛区对社区资产价值的长期侵蚀效应,从而制定差异化的防灾补贴策略。
衍生相关工作
围绕此数据集已衍生出多项具有奠基意义的学术工作。其中,基于Gradient Boosting与SHAP值解释框架的特征重要性分析成为标杆方法,被后续研究广泛引用于揭示学区评分与海滩距离对房价的边际贡献;另一类经典工作则聚焦于异常值处理策略——研究者主动保留高价豪宅并系统比较稳健回归与分位数回归在应对长尾分布时的表现,开创了‘不清洗极端值’的鲁棒建模范式。此外,Flood_Zone变量的引入催生了地理加权回归与空间误差模型在房地产领域的深度整合,为刻画洪泛风险的空间异质性效应树立了方法论范本。
以上内容由遇见数据集搜集并总结生成



