housing-nsw
收藏Hugging Face2026-01-11 更新2026-01-12 收录
下载链接:
https://huggingface.co/datasets/thehooklab/housing-nsw
下载链接
链接失效反馈官方服务:
资源简介:
世界上最大的开源综合房产数据集,包含澳大利亚新南威尔士州(NSW)34年的房产市场数据,涵盖350万笔房产销售记录、丰富的房产属性以及近期租赁市场数据。
创建时间:
2026-01-08
原始信息汇总
Housing NSW Dataset (1990-2024) 数据集概述
数据集简介
数据集摘要
该数据集是世界上最大的开源综合性房地产数据集,包含澳大利亚新南威尔士州(NSW)跨越34年的房地产市场数据,涵盖350万笔房产销售记录、丰富的房产属性以及近期租赁市场数据。
支持的任务
- 价格预测:用于训练房产估值模型的历史销售数据。
- 时间序列分析:34年的市场趋势和周期。
- 投资分析:租金收益率、增长潜力、市场指标。
- 地理分析:郊区级别的市场动态(受坐标可用性限制)。
- 市场细分:房产类型、生活方式评分、人口统计。
数据集结构
数据文件
数据集包含4个文件:
nsw_property_sales_master.csv(381.5 MB):包含3,493,361笔房产销售交易记录,为1990-2024年的单笔销售记录。nsw_property_master_enriched.csv(11.7 MB):包含83,548个具有丰富属性的独特房产,涵盖生活方式评分、市场指标、交通便利性。nsw_rental_market_master.csv(8.0 MB):包含48,158条租赁保证金记录,仅包含2021-2024年的周租金数据。nsw_market_analytics_master.xlsx(0.4 MB):包含市场指标、利率、人口统计数据,为包含时间序列数据的多工作表Excel文件。
数据字段
房产销售主文件
property_id:唯一房产标识符。contract_date:销售日期(YYYY-MM-DD)。purchase_price:销售价格(澳元)。locality:郊区名称。postcode:澳大利亚邮政编码。property_type:房屋、单元、联排别墅等。lat,lon:地理坐标(仅3.13%的覆盖率)。land_area:土地面积(平方米,仅0.31%的覆盖率)。num_bed,num_bath,num_parking:房产特征(仅0.31%的覆盖率)。
房产主文件(丰富版)
- 所有房产标识符和位置字段。
avg_price,num_sales:历史销售统计。growth_potential,market_heat:市场指标。walkability_score,family_friendly_score:生活方式指标。rental_yield_estimate:投资指标。transport_score,nearest_station:交通便利性。
租赁市场主文件
lodgement_date:保证金提交日期。weekly_rent:每周租金金额(澳元)。bond_amount:保证金。dwelling_type:房产类型。bedrooms:卧室数量。postcode:房产位置。
数据统计
- 地理覆盖范围:6,373个新南威尔士州郊区,686个邮政编码。
- 时间覆盖范围:
- 销售数据:1990-2024年(34年)。
- 租赁数据:仅2021-2024年(4年)。
- 价格范围:1,001澳元至100,000,000澳元。
- 房产类型:10个类别,包括房屋、单元、联排别墅、空地。
- 销售价格中位数:约655,000澳元(每年不同)。
- 平均周租金:899澳元(2021-2024年期间)。
使用信息
数据加载
提供使用Python的pandas库加载各数据文件的示例代码。
已知限制
关键缺口
- 地理坐标:仅3.13%的房产具有经纬度坐标。
- 房产特征:仅0.31%的记录包含卧室/浴室信息。
- 租赁历史:仅限于2021-2024年(缺少30年数据)。
- 租赁覆盖范围:仅包含8个邮政编码。
数据质量问题
- 2008年数据缺口:记录数量显著下降(减少98%)。
- 1997年之前:覆盖稀疏,记录有限。
- 房产类型:部分分类不一致。
- 缺失值:多个字段存在数据不完整。
适用场景
- 长期价格趋势分析(2001-2024年)。
- 郊区级别的市场比较。
- 近期租赁市场分析(2021-2024年)。
- 房产类型分布研究。
不适用场景
- 全面的地理/制图分析。
- 详细的房产特征分析。
- 历史租金收益率计算。
- 新南威尔士州所有区域的完整市场覆盖。
数据集版本
- v1.0 (2026年1月):初始版本。
引用
如果使用此数据集,请引用:
@dataset{housing-nsw, author = {Fedor Kriuk}, title = {Housing NSW Dataset (1990-2024)}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/thehooklab/housing-nsw} }
许可证
该数据集根据MIT许可证发布。 许可证全文包含在README中,版权归Fedor Kriuk (2026)所有。
致谢
数据汇编自各种公开和半公开来源。用户应确保其特定用例符合相关的数据使用政策。
联系
如有问题,请在社区讨论区发起讨论。
搜集汇总
数据集介绍

构建方式
在房地产数据科学领域,构建一个全面且可靠的数据集对于市场分析至关重要。Housing NSW数据集通过整合多个公开及半公开数据源,系统性地汇集了新南威尔士州长达34年的房地产交易记录。其核心文件包含超过349万笔销售交易,并辅以经过增强的属性信息,涵盖生活品质评分、市场指标及交通可达性等多维度特征。数据采集过程注重时间连续性,尽管部分属性如地理坐标和房间数量的覆盖率有限,但整体架构为跨年度的趋势研究提供了坚实基础。
特点
该数据集以其宏大的时空跨度与丰富的属性维度而著称,覆盖了自1990年至2024年间的房地产销售与近期租赁市场动态。其显著特点在于包含了超过350万笔销售交易,并拓展至生活便利性评分、增长潜力评估及租金收益率估算等增强指标。数据地理范围广泛,涉及六千余个郊区,但需注意地理坐标与详细物业特征的覆盖率较低。时间序列的完整性为分析长期市场周期提供了可能,而近期新增的租赁数据则为投资回报研究补充了当代视角。
使用方法
利用该数据集进行实证研究时,研究者可借助Python的Pandas库便捷地加载多个CSV及Excel文件,分别对应销售主档、增强属性、租赁记录及市场分析表。典型应用包括通过筛选与分组操作进行区域房价趋势分析,或结合增强数据中的增长潜力指标识别高潜力投资区域。例如,可通过计算特定邮编区的平均售价与周租金来估算租金收益率。然而,使用者需留意数据在空间细节与历史租赁信息方面的局限性,以确保分析结论的稳健性。
背景与挑战
背景概述
在房地产经济学与数据科学交叉领域,长期、大规模且细粒度的市场数据对于理解价格形成机制、预测市场趋势及评估投资风险至关重要。Housing NSW数据集由研究人员Fedor Kriuk于2026年发布,作为目前全球最大的开源综合性房地产数据集,其核心研究问题聚焦于通过整合新南威尔士州长达34年的历史交易记录、丰富属性特征及近期租赁数据,为机器学习模型提供训练基础,以支持房价预测、时间序列分析及投资决策等任务。该数据集涵盖了自1990年至2024年间超过349万笔房产销售记录,并引入了生活方式评分、市场热度指标等增强特征,旨在推动房地产市场的量化分析与智能化应用,对区域经济研究、政策评估及金融科技发展具有显著影响力。
当前挑战
该数据集旨在解决的领域问题——房地产价格预测与市场分析——面临多重挑战:时间跨度虽长,但早期数据稀疏,且2008年存在记录锐减的断层,影响趋势连续性建模;地理坐标覆盖率仅3.13%,关键属性如卧室数量覆盖率不足0.31,制约了空间分析与细粒度特征建模的可靠性;租赁数据仅覆盖2021至2024年,缺乏历史序列,限制了长期租金收益率与投资回报的全面评估。在构建过程中,挑战源于多源异构数据的整合与清洗,包括不一致的分类标准、大量缺失值处理,以及确保跨时段、跨区域数据的一致性与可比性,这些因素共同构成了数据集在完整性与应用广度上的核心局限。
常用场景
经典使用场景
在房地产经济学领域,长期市场趋势的量化分析是理解区域经济动态的核心。Housing NSW数据集凭借其跨越34年的350万条房产销售记录,为研究者提供了进行时间序列分析的宝贵资源。该数据集最经典的使用场景在于训练和验证房产价格预测模型,通过整合历史交易数据、物业属性及生活方式评分,能够构建出精准的估值框架,揭示新南威尔士州房产市场的周期性波动与长期增长轨迹。
衍生相关工作
基于该数据集丰富的时空信息,已衍生出多项经典研究工作。例如,学者们开发了融合机器学习与地理统计的混合估值模型,以提升价格预测的准确性。此外,利用其进行市场细分与投资组合优化的研究,为理解不同物业类型和区域的风险收益特征提供了新视角。这些工作共同推动了房地产数据分析方法学的进步与应用边界的拓展。
数据集最近研究
最新研究方向
在房地产数据分析领域,Housing NSW数据集凭借其跨越34年的新南威尔士州房产销售记录,为价格预测和时间序列分析提供了丰富的历史基础。当前研究前沿聚焦于融合机器学习模型与地理空间分析,以克服数据集在坐标和属性覆盖上的局限,探索郊区级市场动态与生活方式指标的关联。热点事件如澳大利亚房产市场的周期性波动,驱动学者利用该数据集进行投资回报模拟和风险预警,其意义在于为政策制定和可持续城市发展提供实证支持,推动房地产金融研究的精细化与智能化转型。
以上内容由遇见数据集搜集并总结生成



