new_paris_housing_dataset
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/22Danielle/new_paris_housing_dataset
下载链接
链接失效反馈官方服务:
资源简介:
巴黎住房分类数据集包含法国巴黎10,000处房地产的详细记录,每处房产由17个数值特征描述,包括面积、房间数量、设施、价格和建造年份等。目标变量为二元标签,表示房产是否为豪华型或基础型。该数据集旨在通过物理和结构特征预测巴黎房产的分类。数据集经过严格的质量检查,保留了所有异常值以反映真实的房产多样性。关键分析表明,面积(squareMeters)是最强的预测因子,豪华型房产的面积几乎是基础型的两倍。价格是第二强的预测因子,而设施数量(如游泳池、车库等)的组合信号也表现出强大的分类能力。建造年份与房产分类无显著关联。数据集经过对数变换和主成分分析(PCA)处理,确认了特征集在分类任务中的高效性。该数据集适用于二元分类任务,尤其是房地产市场的豪华与基础房产分类研究。
创建时间:
2026-04-07
原始信息汇总
数据集概述
基本信息
- 数据集名称: Paris Housing Classification
- 上传者/学生: Danielle Lachovitz
- 原始来源: Paris Housing Classification · Kaggle
- 数据内容: 包含法国巴黎10,000处房地产物业的记录。
- 特征数量: 每个物业由17个数值特征描述,包括面积、房间数量、设施、价格和建造年份。
- 目标变量: 类别(category),一个二元标签,指示物业是“豪华”(Luxury)还是“基础”(Basic)。
核心研究问题
能否根据巴黎物业的物理和结构特征预测其属于“豪华”还是“基础”类别?
数据探索与关键发现
数据分布与平衡性
- 类别分布完全平衡:50% Luxury,50% Basic。无需重采样。
关键预测特征
- 面积(squareMeters): 最强的预测因子。豪华物业的面积几乎是基础物业的两倍,且重叠极少。
- 价格(price): 第二强的预测因子。豪华物业价格显著更高,但在中档范围存在一些重叠。
- 设施(Amenities):
- 拥有游泳池(hasPool)、车库(garage)或院子(hasYard)的物业绝大多数是豪华类别。
- 设施总数(amenity_count,衍生特征)是强有力的信号:拥有5个以上设施的物业几乎全是豪华型,而0-1个设施的则倾向于基础型。
- 房间数量(numberOfRooms)与楼层数(floors): 提供中等程度的预测信号。房间多、面积大倾向于豪华;房间多、面积小可能意味着分割的预算住房。
弱相关或无关联特征
- 建造年份(made): 与物业类别没有有意义的关联。
- 前业主数量(numPrevOwners): 与物业类别关联性弱。
数据处理与转换
- 异常值处理: 使用IQR方法检测到异常值,但未删除任何行。极端值(大面积、高价格)代表真实的边缘案例(大型庄园、高端物业),并携带对分类有意义的信号。
- 对数转换: 对严重右偏的“squareMeters”和“price”进行了log(1 + x)转换,使分布更对称、接近正态,更适合线性模型和统计检验。
统计分析结果
- 相关性分析: squareMeters与豪华分类的正相关性最强,价格次之。二元设施特征(游泳池、院子、车库)均显示中等正相关。
- 卡方检验与Cramér‘s V: 所有二元特征均具有统计显著性。其中,hasPool、garage、hasYard与类别关联性最强。
- 主成分分析(PCA): 将所有14个特征压缩至2维后,显示出两个清晰分离的簇,证实特征集携带强烈的分类信号。squareMeters和price是驱动豪华与基础区分轴的主要因素。
数据集适用性结论
- 特征组合(面积 + 价格 + 设施)能提供最清晰的分类边界。
- 数据具有高度可分离性,分类模型在此数据集上应能表现优异。
- 该数据集适用于研究基于物业特征的二元分类任务。
搜集汇总
数据集介绍

构建方式
在房地产数据分析领域,巴黎住房分类数据集的构建体现了严谨的实证研究流程。该数据集源自Kaggle平台,收录了法国巴黎地区一万处房产的详细记录。其构建过程遵循了系统的数据探索与分析范式,在保留原始数据完整性的前提下,通过四分位距方法识别了极端值,并基于领域知识将其判定为反映高端房产市场的真实信号而非噪声,因此未进行任何样本剔除。研究中对面积和价格这两个右偏分布特征进行了对数变换以改善其统计特性,并创造性地构建了设施总数这一聚合特征以增强分类信号的强度。整个数据集的构建紧密围绕“依据物理与结构特征预测房产等级”这一核心研究问题展开,确保了数据质量与任务目标的高度一致性。
特点
该数据集在房地产机器学习任务中展现出若干显著特点。其核心特征在于包含17个数值型变量,全面刻画了房产的面积、房间数量、设施配置、价格及建造年份等关键属性。目标变量为二元类别标签,将房产明确划分为“豪华”与“基础”两类,且两类样本分布完全均衡,为模型训练提供了理想条件。数据内在结构清晰,通过主成分分析可观察到两个类别在降维空间中存在高度可分离的簇群,预示着强大的可分类性。特征间的相关性分析进一步揭示,房产面积与价格是区分类别的最强预测因子,而诸如游泳池、庭院、车库等二元设施特征也呈现出中等程度的相关性。这些特点共同构成了一个特征信号明确、类别边界清晰、适用于开发高性能分类模型的数据基础。
使用方法
该数据集主要服务于监督式机器学习中的二元分类任务。使用者可直接利用其提供的标准化特征与标签,构建预测模型以判断巴黎房产的等级归属。在模型开发前,建议采纳数据探索中的洞见,例如对面积和价格特征进行对数变换以处理其偏态分布,并考虑将多个二元设施特征聚合为“设施总数”这一衍生特征,此举可能提升模型的判别性能。鉴于数据已具备完美的类别平衡,无需进行重采样处理。研究者可优先尝试逻辑回归、支持向量机或树集成等分类算法,并重点关注面积、价格及设施组合等强信号特征。数据集的清晰结构也使其非常适合用于教学场景,演示从探索性数据分析到模型构建与评估的完整机器学习工作流程。
背景与挑战
背景概述
在房地产数据分析与机器学习应用蓬勃发展的背景下,巴黎住房分类数据集应运而生,旨在为城市房地产市场的智能化评估提供关键数据支持。该数据集由Kaggle平台上的贡献者Mssmartypants整理发布,并经由学生Danielle Lachovitz进行了深入的探索性数据分析。其核心研究聚焦于一个经典的二分类问题:能否依据房产的物理与结构特征,如面积、房间数量、设施配置及建造年份等,精准预测其属于“豪华”或“基础”类别。这一研究直接关联到房地产估值、市场细分及自动化分类模型的开发,为理解高端住宅市场的特征构成提供了量化的实证基础。
当前挑战
该数据集致力于解决的领域挑战在于,如何从多维度的房产属性中构建鲁棒的分类模型,以区分豪华与基础住宅。具体而言,尽管面积和价格展现出极强的预测能力,但二者在中等价位区间存在重叠,且部分设施特征信号相对分散,这要求模型必须有效融合连续变量与分类变量,并处理特征间的复杂交互关系。在构建过程中,挑战主要体现为数据特征的工程化处理,例如,如何合理处理面积与价格的右偏分布以适配线性模型假设,以及如何将多个独立的二元设施特征整合为更具判别力的综合指标,如设施总数,从而在保留真实市场极端案例的同时,优化模型的分类边界与泛化性能。
常用场景
经典使用场景
在房地产数据科学领域,巴黎住房分类数据集为机器学习分类任务提供了典型范例。该数据集常用于构建二分类模型,以预测巴黎房产属于豪华或基础类别,其中面积、价格及配套设施数量等连续与离散特征共同构成了判别依据。通过逻辑回归、决策树或支持向量机等算法,研究者能够探索特征间的非线性关系,验证模型在平衡数据集上的泛化性能,并为房产市场的自动化分级提供基准测试平台。
实际应用
在现实应用中,巴黎住房分类数据集为房产评估、市场细分与投资决策提供了数据驱动支持。房地产平台可借助该数据集构建自动化估价系统,通过房产特征快速识别高端房源,优化房源推荐策略。城市规划部门则能利用分类结果分析城市空间分异模式,评估配套设施分布对住宅等级的影响。此外,金融机构可将其应用于抵押贷款风险评估,通过房产类别辅助判断资产价值与违约概率,提升金融服务的精准度。
衍生相关工作
围绕该数据集衍生的经典研究多集中于特征融合与模型优化方向。部分工作通过集成学习方法结合面积、价格与配套设施特征,提升了分类边界在重叠区域的清晰度;另有研究引入注意力机制,动态加权不同特征对分类结果的贡献,增强了模型的可解释性。此外,学者们利用该数据集验证了对抗生成网络在房产数据增强中的有效性,通过合成少数类别样本缓解了实际场景中的数据稀缺问题,推动了小样本学习在房地产领域的应用。
以上内容由遇见数据集搜集并总结生成



