valoris-french-real-estate-prices
收藏Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/VALORISIMMO/valoris-french-real-estate-prices
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为法国房地产价格 — VALORIS观察站(DVF 2020-2025),是一个基于法国开放数据源DVF(Demandes de Valeurs Foncières)的房地产中位数价格(€/m²)数据集。数据集覆盖法国本土93个省份及其约35,000个市镇(不包括阿尔萨斯-摩泽尔地区的57、67、68省)。时间跨度为2020年至2025年的年度数据。数据集包含三种房产类型(公寓、房屋、所有类型)的中位数价格、交易数量和年同比变化等指标。数据经过清洗和聚合处理,包括去除异常值、设置最低交易数量阈值(低于10笔交易标记为不可用)以及排除批量销售。数据集分为三个部分:国家层面的CSV文件(france.csv)、省级JSON文件(departements.json)和市级JSON文件(communes/*.json)。适用于区域房地产市场分析、价格预测模型训练、地理空间可视化等应用场景。数据集采用etalab-2.0许可证,要求注明来源。
创建时间:
2026-04-23
原始信息汇总
数据集概述:French Real Estate Prices — VALORIS Observatory (DVF 2020-2025)
基本信息
- 数据集名称:French Real Estate Prices — VALORIS Observatory (DVF 2020-2025)
- 许可证:etalab-2.0(Licence Ouverte 2.0)
- 语言:法语
- 任务类别:表格回归(tabular-regression)
- 数据规模:100K 至 1M 条记录
- 来源数据:扩展(extended)
数据来源
基于法国政府公开数据源 DVF(Demandes de Valeurs Foncières),由 DGFiP 发布。
时空覆盖范围
- 时间跨度:2020 年至 2025 年(年度序列)
- 空间覆盖:法国本土 93 个省及约 35,000 个市镇(不含阿尔萨斯-摩泽尔地区的 57、67、68 省)
数据内容
- 物业类型:公寓(appartement)、房屋(maison)、全部(tous)
- 核心指标:每平方米中位价格(€/m²)、交易数量、年度同比变化率
文件结构
1. france.csv — 国家级序列
按物业类型和年份聚合的全国中位价格。
- 列字段:
annee(年份)、type_bien(物业类型)、prix_median_m2(每平方米中位价格)、nb_transactions(交易数量)、evolution_1an_pct(年度变化百分比)
2. departements.json — 省份级数据
包含元数据及各省份按类型和年份的中位价格。
- 示例:巴黎(75省),2025年公寓每平方米中位价格为 9,420 €,交易 24,180 笔,同比下降 2.8%
3. communes/*.json — 市镇级数据(共 93 个文件)
每个省份一个 JSON 文件(如 75.json),包含该省所有市镇逐年按物业类型的中位价格。
方法论
- 源数据处理:基于 DGFiP 每半年更新的 DVF 数据(交易时间跨度 2020-01-01 至 2025-12-31)
- 数据清洗:
- 按市镇 × 类型 × 年份剔除 P5 / P95 离群值
- 最低 10 笔交易 阈值(低于此值标记为
indisponible) - 排除批量销售(
nature_mutation = Vente en létat futur dachèvement)
- 聚合方式:使用中位数(而非均值)以增强离群值鲁棒性
- 变化率计算:
(prix_N - prix_N-1) / prix_N-1 × 100
典型应用场景
- 区域房地产市场分析
- 价格预测模型训练(特征包括:
code_commune、type_bien、annee) - 地理空间可视化(如等值线地图)
- 2020-2025 年法国住宅市场经济研究
- 税收与遗产评估基线
许可证与引用
-
上游数据许可证:Licence Ouverte 2.0(DGFiP)
-
本数据集许可证:etalab-2.0(Licence Ouverte 2.0),需注明出处
-
推荐引用格式:
VALORIS (2026). French Real Estate Prices — VALORIS Observatory (DVF 2020-2025). Hugging Face Datasets. https://huggingface.co/datasets/VALORISIMMO/valoris-french-real-estate-prices Source: DGFiP — Demandes de Valeurs Foncières (Licence Ouverte 2.0)
相关标识符
- DOI(Zenodo):https://doi.org/10.5281/zenodo.19704026
- figshare 镜像:https://figshare.com/articles/dataset/32084997
- data.gouv.fr 再利用:https://www.data.gouv.fr/fr/reuses/observatoire-prix-immobiliers-valoris/
- Kaggle 镜像:https://www.kaggle.com/datasets/valoris/french-real-estate-prices-dvf
搜集汇总
数据集介绍

构建方式
该数据集源自法国公共财政总局(DGFiP)发布的公开土地价值查询(DVF)数据库,由VALORIS团队进行了系统性的清洗与聚合。构建过程中,首先对2020年至2025年期间的房地产交易记录进行了去噪处理,采用P5与P95分位数方法剔除每个市镇、物业类型和年份组合中的极端异常值。随后,设定每类交易组合至少需包含10笔交易的最低阈值,低于该阈值的数据被标记为不可用。聚合阶段选用了中位数而非均值来计算每平方米单价,因其对异常值具有更高的稳健性。最终产出了覆盖法国本土93个省及约3.5万个市镇的年度中位数价格序列。
特点
该数据集的核心特色在于其精细的空间粒度和时间跨度。它不仅提供了国家层面和省级层面的聚合中位数价格,还深入到市镇级别,以每省一个JSON文件的形式呈现了约3.5万个市镇的逐年度数据。数据按公寓、房屋及全部物业三种类型分别统计,并记录了交易数量与年度价格演变百分比。通过严格的数据清洗和低交易量屏蔽机制,有效保障了统计结果的可靠性。此外,数据集附带了交互式可视化平台,用户可进行多维度的下钻分析。
使用方法
数据集提供了多种便捷的访问方式。用户可通过Hugging Face的 datasets 库一键加载国家级CSV文件,例如使用 load_dataset ("VALORISIMMO/valoris-french-real-estate-prices", data_files="france.csv") 命令。亦或直接利用 Pandas 库读取远程文件,路径为 hf://datasets/VALORISIMMO/valoris-french-real-estate-prices/france.csv。对于省级和市镇级的详细数据,则可通过加载对应的JSON文件进行解析。该数据集适用于区域房地产市场分析、价格预测模型训练、地理空间可视化以及经济研究等多个应用场景。
背景与挑战
背景概述
法国房地产市场的透明化分析长期以来受限于分散、非结构化的交易数据。VALORIS French Real Estate Prices数据集由VALORIS团队在2026年创建,基于法国财政总署(DGFiP)公开发布的Demandes de Valeurs Foncières(DVF)数据源,涵盖2020至2025年间法国本土93个省份及约35000个市镇的真实房地产交易记录。该数据集以每平方米中位数价格为核心指标,按公寓、独栋住宅及总体类型分别统计,并纳入年度交易量与环比演变率,为区域市场分析、价格预测模型训练及经济研究提供了标准化的高质量素材。其通过交互式可视化平台valoris-immo.fr的发布,显著推动了法国住宅价格研究的可重复性与数据民主化进程,成为连接官方统计与学术、产业应用的重要桥梁。
当前挑战
该数据集所解决的领域问题主要集中于法国房地产价格的空间与时间异质性分析,传统上依赖均值或局部抽样统计,难以抵御极端值扰动且缺乏细粒度可比性。构建过程中面临多项挑战:其一,原始DVF数据包含大量批量交易与非典型销售(如期房交易),需精准过滤以反映市场常态;其二,市镇级别交易量稀疏性导致统计学不可靠,必须设定最低交易阈值(10笔)并对缺失值进行透明标记;其三,跨年度数据需统一处理地址变更与分类标准演变,确保纵向可比性;其四,阿尔萨斯-摩泽尔地区因地方土地登记制度差异(Livre Foncier)而无法纳入,形成空间覆盖的固有缺口,需在方法论中明确说明以避免模型偏差。
常用场景
经典使用场景
该数据集以法国税务部门公开的房地产交易数据(DVF)为基础,聚合了2020至2025年间法国本土93个省份及约三万五千个市镇的房地产中位数价格(€/m²),涵盖公寓、独栋住宅及整体市场。其经典使用场景在于为区域房地产市场分析提供结构化、时空对齐的基准数据,研究者可通过该数据集轻松构建价格预测模型,将市镇编码、房产类型与年份作为特征输入,训练回归模型以估算不同地理单元的房产价值。此外,该数据也被广泛用于绘制等值线图等地理空间可视化工作,直观呈现法国房价的时空演变格局。
解决学术问题
该数据集系统性地解决了法国房地产研究中长期以来数据碎片化、清洗标准不统一的核心难题。通过采用中位数而非均值进行聚合,并剔除P5/P95极端值及大宗交易干扰,显著提升了价格指标的稳健性与可比性。学术研究者可借此深入探讨法国住宅市场的空间分异规律、地价与交易量的动态关联,以及新冠疫情前后市场周期性波动的内在机制。该数据集的存在也促进了跨学科研究的展开,例如经济地理学对区域发展不均衡的定量刻画、城市经济学对住房可负担性的实证分析,乃至公共政策领域对房产税收公平性的评估,均凭借其高精度、长时序的观测得以推进。
衍生相关工作
该数据集自发布以来已衍生出多项具有影响力的学术与工程工作。其在学术层面已被收录于Zenodo与figshare等国际仓储平台,获得了持久标识符(DOI: 10.5281/zenodo.19704026),并成为Kaggle竞赛中法国房价预测挑战的标准基线数据。围绕该数据,研究者展开了价格序列的时空插值与预测研究,尝试利用图神经网络建模城市间的房价传导效应。在工程侧,基于该数据集的交互式可视化看板、API查询服务以及集成到地理信息系统(GIS)中的地图图层持续涌现,形成了从数据清洗、特征工程到模型部署的完整开源生态。此外,该数据与法国国家税务局的原始DVF数据源形成互补,为后续构建更长时序、更细粒度(如街区级别)的房产观测站奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



