five

misikoff/zillow

收藏
Hugging Face2024-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/misikoff/zillow
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Zillow提供的七个不同配置的数据组成,涵盖了美国住房市场的不同方面。每个配置都有不同的特征和目标变量,数据以JSONL格式提供。数据集包括房屋价值预测、新建房屋、待售房源、租赁、销售、房屋价值和市场天数等配置。每个配置都有详细的特征描述,如区域ID、区域类型、房屋类型、日期等。数据集的目标是提供关于美国住房市场的全面数据,支持表格回归和时间序列预测任务。

该数据集由Zillow提供的七个不同配置的数据组成,涵盖了美国住房市场的不同方面。每个配置都有不同的特征和目标变量,数据以JSONL格式提供。数据集包括房屋价值预测、新建房屋、待售房源、租赁、销售、房屋价值和市场天数等配置。每个配置都有详细的特征描述,如区域ID、区域类型、房屋类型、日期等。数据集的目标是提供关于美国住房市场的全面数据,支持表格回归和时间序列预测任务。
提供机构:
misikoff
原始信息汇总

数据集概述

数据集描述

该数据集包含七种不同配置的数据,涵盖美国房地产市场的不同方面。所有数据由Zillow提供,并以JSONL格式提供。七种配置分别是:home_values_forecasts、new_construction、for_sale_listings、rentals、sales、home_values和days_on_market。每种配置具有不同的特征和目标变量。

配置详情

days_on_market

  • 特征:
    • Region ID: 字符串类型,区域唯一标识符
    • Size Rank: 整数类型,区域大小排名
    • Region: 字符串类型,区域名称
    • Region Type: 类别标签类型,区域类型
    • State: 字符串类型,区域所在州的缩写
    • Home Type: 类别标签类型,房屋类型
    • Date: 时间戳类型,数据日期
    • Mean Listings Price Cut Amount (Smoothed): 浮点类型,平均降价金额(平滑)
    • Percent Listings Price Cut: 浮点类型,降价百分比
    • Mean Listings Price Cut Amount: 浮点类型,平均降价金额
    • Percent Listings Price Cut (Smoothed): 浮点类型,降价百分比(平滑)
    • Median Days on Pending (Smoothed): 浮点类型,中位数待定天数(平滑)
    • Median Days on Pending: 浮点类型,中位数待定天数
  • 分割:
    • train: 586714个样本,50107320字节
  • 下载大小: 229118598字节
  • 数据集大小: 50107320字节

for_sale_listings

  • 特征:
    • Region ID: 字符串类型,区域唯一标识符
    • Size Rank: 整数类型,区域大小排名
    • Region: 字符串类型,区域名称
    • Region Type: 类别标签类型,区域类型
    • State: 字符串类型,区域所在州的缩写
    • Home Type: 类别标签类型,房屋类型
    • Date: 时间戳类型,数据日期
    • Median Listing Price: 浮点类型,中位数挂牌价格
    • Median Listing Price (Smoothed): 浮点类型,中位数挂牌价格(平滑)
    • New Listings: 整数类型,新挂牌数量
    • New Listings (Smoothed): 整数类型,新挂牌数量(平滑)
    • New Pending (Smoothed): 整数类型,新待定数量(平滑)
    • New Pending: 整数类型,新待定数量
  • 分割:
    • train: 578653个样本,49412198字节
  • 下载大小: 180206592字节
  • 数据集大小: 49412198字节

home_values

  • 特征:
    • Region ID: 字符串类型,区域唯一标识符
    • Size Rank: 整数类型,区域大小排名
    • Region: 字符串类型,区域名称
    • Region Type: 类别标签类型,区域类型
    • State: 字符串类型,区域所在州的缩写
    • Home Type: 类别标签类型,房屋类型
    • Bedroom Count: 类别标签类型,卧室数量
    • Date: 时间戳类型,数据日期
    • Bottom Tier ZHVI (Smoothed) (Seasonally Adjusted): 浮点类型,底层ZHVI(平滑,季节性调整)
    • Mid Tier ZHVI (Smoothed) (Seasonally Adjusted): 浮点类型,中层ZHVI(平滑,季节性调整)
    • Top Tier ZHVI (Smoothed) (Seasonally Adjusted): 浮点类型,顶层ZHVI(平滑,季节性调整)
  • 分割:
    • train: 117912个样本,9377759字节
  • 下载大小: 41145800字节
  • 数据集大小: 9377759字节

home_values_forecasts

  • 特征:
    • Region ID: 字符串类型,区域唯一标识符
    • Size Rank: 整数类型,区域大小排名
    • Region: 字符串类型,区域名称
    • Region Type: 类别标签类型,区域类型
    • State: 字符串类型,区域所在州的缩写
    • City: 字符串类型,城市名称
    • Metro: 字符串类型,都市区名称
    • County: 字符串类型,县名称
    • Date: 时间戳类型,数据日期
    • Month Over Month % (Smoothed) (Seasonally Adjusted): 浮点类型,月度环比百分比(平滑,季节性调整)
    • Quarter Over Quarter % (Smoothed) (Seasonally Adjusted): 浮点类型,季度环比百分比(平滑,季节性调整)
    • Year Over Year % (Smoothed) (Seasonally Adjusted): 浮点类型,年度同比百分比(平滑,季节性调整)
    • Month Over Month %: 浮点类型,月度环比百分比
    • Quarter Over Quarter %: 浮点类型,季度环比百分比
    • Year Over Year %: 浮点类型,年度同比百分比
  • 分割:
    • train: 31854个样本,3976869字节
  • 下载大小: 14081979字节
  • 数据集大小: 3976869字节

new_construction

  • 特征:
    • Region ID: 字符串类型,区域唯一标识符
    • Size Rank: 整数类型,区域大小排名
    • Region: 字符串类型,区域名称
    • Region Type: 类别标签类型,区域类型
    • State: 字符串类型,区域所在州的缩写
    • Home Type: 类别标签类型,房屋类型
    • Date: 时间戳类型,数据日期
    • Median Sale Price: 浮点类型,中位数销售价格
    • Median Sale Price per Sqft: 浮点类型,每平方英尺中位数销售价格
    • Sales Count: 整数类型,销售数量
  • 分割:
    • train: 49487个样本,3624631字节
  • 下载大小: 10937317字节
  • 数据集大小: 3624631字节

rentals

  • 特征:
    • Region ID: 字符串类型,区域唯一标识符
    • Size Rank: 整数类型,区域大小排名
    • Region: 字符串类型,区域名称
    • Region Type: 类别标签类型,区域类型
    • State: 字符串类型,区域所在州的缩写
    • Home Type: 类别标签类型,房屋类型
    • Date: 时间戳类型,数据日期
    • Rent (Smoothed): 浮点类型,租金(平滑)
    • Rent (Smoothed) (Seasonally Adjusted): 浮点类型,租金(平滑,季节性调整)
  • 分割:
    • train: 1258740个样本,92914681字节
  • 下载大小: 447425069字节
  • 数据集大小: 92914681字节

sales

  • 特征:
    • Region ID: 字符串类型,区域唯一标识符
    • Size Rank: 整数类型,区域大小排名
    • Region: 字符串类型,区域名称
    • Region Type: 类别标签类型,区域类型
    • State: 字符串类型,区域所在州的缩写
    • Home Type: 类别标签类型,房屋类型
    • Date: 时间戳类型,数据日期
    • Mean Sale to List Ratio (Smoothed): 浮点类型,平均销售与挂牌比率(平滑)
    • Median Sale to List Ratio: 浮点类型,中位数销售与挂牌比率
    • Median Sale Price: 浮点类型,中位数销售价格
    • Median Sale Price (Smoothed) (Seasonally Adjusted): 浮点类型,中位数销售价格(平滑,季节性调整)
    • Median Sale Price (Smoothed): 浮点类型,中位数销售价格(平滑)
    • Median Sale to List Ratio (Smoothed): 浮点类型,中位数销售与挂牌比率(平滑)
    • % Sold Below List: 浮点类型,低于挂牌价销售百分比
    • % Sold Below List (Smoothed): 浮点类型,低于挂牌价销售百分比(平滑)
    • % Sold Above List: 浮点类型,高于挂牌价销售百分比
    • % Sold Above List (Smoothed): 浮点类型,高于挂牌价销售百分比(平滑)
    • Mean Sale to List Ratio: 浮点类型,平均销售与挂牌比率
  • 分割:
    • train: 255024个样本,27088039字节
  • 下载大小: 139297577字节
  • 数据集大小: 27088039字节
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Zillow研究数据平台,整合了美国房地产市场的多维信息,涵盖房屋价值、销售、租赁、新建住宅、挂牌及市场停留天数等七个核心配置。每个配置均以JSONL格式存储,包含区域标识、区域类型、房屋类型、时间戳等基础字段,以及针对不同市场维度的数值变量。数据经过平滑处理与季节性调整,部分指标提供原始与平滑两种版本,以支持灵活的时间序列分析。数据集构建过程中,Zillow采用神经Zestimate模型对房屋价值指数进行升级,确保了跨时段数据的连续性与预测精度。
特点
该数据集的核心特色在于其多维度、多粒度的结构化设计。七个配置覆盖了从房屋价值预测到租赁指数、从新建住宅销售到市场停留天数的完整生态,区域类型涵盖邮编、城市、县、都市统计区乃至国家层级,房屋类型则细分至独栋、公寓、多户住宅等。时间序列数据提供月度与周度粒度,并引入平滑与季节性调整变量,有效降低了噪声干扰。此外,数据集包含丰富的衍生指标,如价格削减比例、售出与挂牌比率、同比环比变化率,为房地产趋势分析与预测建模提供了坚实的数据基础。
使用方法
该数据集通过HuggingFace Datasets库加载,支持按配置名称(config_name)选择特定子集,如'home_values'或'rentals'。用户可调用load_dataset函数指定配置,直接获取包含训练分割的表格数据。对于时间序列预测任务,可利用Date字段进行时序划分,结合Region ID与Home Type进行分组分析。回归任务则可选取Median Sale Price、ZHVI等连续变量作为目标,利用平滑版本作为特征工程的一部分。数据集默认提供JSONL格式,便于与Pandas、Scikit-learn等工具链集成,适用于房地产估值、市场流动性分析及价格趋势预测等场景。
背景与挑战
背景概述
住房市场作为国民经济的重要支柱,其动态变化对政策制定、投资决策及社会福祉具有深远影响。在此背景下,misikoff/zillow数据集由Zillow研究团队于2023年2月创建,整合了美国住房市场的多维度公开数据,涵盖房价指数、租金指数、待售房源、新建住房及市场挂牌时间等七个核心配置。该数据集旨在为时间序列预测和表格回归任务提供标准化、细粒度的区域级住房数据,支持从邮政编码到国家层面的多层次分析。其发布填补了可获取的高质量住房数据集的空白,推动了房地产经济学、城市科学及机器学习交叉领域的研究,成为学者和数据科学家探索住房市场规律、构建预测模型的重要资源。
当前挑战
该数据集面临的核心挑战在于多源异构数据的整合与时间序列预测的复杂性。在领域层面,住房市场受宏观经济、政策调控及季节性因素交织影响,传统回归模型难以捕捉非线性和长程依赖关系,亟需更先进的深度学习架构以提升预测精度。在构建过程中,挑战体现为数据一致性与质量保障:Zillow原始数据涵盖不同区域类型和房屋类别,需处理缺失值、异常值及时间戳对齐问题;同时,平滑处理与季节性调整的引入虽增强了数据稳定性,却可能掩盖短期市场波动,对模型鲁棒性构成考验。此外,大规模数据集(如rentals配置含125万样本)的存储与高效加载亦为实践难点。
常用场景
经典使用场景
在大数据与机器学习深度融合的当下,misikoff/zillow数据集作为美国房地产市场的多维度时间序列数据集合,为研究者提供了丰富的数据源。其经典使用场景聚焦于房价预测与市场趋势建模,研究者可基于home_values与home_values_forecasts配置,利用Zillow房屋价值指数及其预测数据,构建回归或时序模型,以捕捉房价的动态变化规律。此外,days_on_market与for_sale_listings配置则支持对市场流动性进行分析,通过中位挂牌天数、新挂牌数量等指标,揭示供需关系的微妙演变。该数据集的多区域、多房屋类型特征,使其成为跨地域比较研究的理想平台。
衍生相关工作
该数据集催生了一系列具有深远影响的经典工作。在学术界,研究者基于home_values数据开发了融合图神经网络与时空注意力机制的房价预测框架,显著提升了长时序预测的鲁棒性。在工业界,有团队利用for_sale_listings与sales数据,构建了实时市场供需指数,并被纳入宏观经济预警系统。此外,基于rentals配置的租金预测模型,衍生出针对租赁市场公平性的算法审计研究,推动了可解释人工智能在住房领域的应用。这些工作共同构建了一个从数据采集到模型部署的完整研究生态。
数据集最近研究
最新研究方向
基于Zillow多维度住房数据的时序预测与房地产市场动态建模已成为前沿方向。该数据集整合了房屋价值指数、挂牌与成交价格、在售天数、租金指数及新建住房等七类配置,覆盖从邮政编码到国家层级的空间粒度,为构建高精度房价预测模型提供了丰富特征。当前研究热点聚焦于利用深度学习与时间序列分析方法,捕捉利率波动、新建住房供应变化与区域市场异质性对房价的传导效应。同时,结合Zillow发布的神经Zestimate升级版数据,研究者正探索如何将平滑与季节性调整后的指标融入混合模型,以提升对市场拐点的预测能力。这一数据集在分析后疫情时代美国住房市场的结构性变迁、评估货币政策对房地产的影响以及揭示不同收入阶层住房可负担性差异方面具有重要价值,为房地产经济学与城市科学交叉领域提供了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作