five

xairon/piezo-embedding-benchmark

收藏
Hugging Face2026-04-10 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/xairon/piezo-embedding-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - time-series-forecasting - feature-extraction - tabular-classification language: - fr tags: - groundwater - piezometry - time-series - embedding - hydrology - ERA5 - BRGM size_categories: - 1M<n<10M --- # Piezometric Embedding Benchmark Dataset Daily groundwater level time series from ~4200 French monitoring stations, with ERA5 climate covariates and hydrogeological labels. ## Notebooks | Notebook | Description | |----------|-------------| | [01_data_exploration.ipynb](notebooks/01_data_exploration.ipynb) | Dataset overview, label distributions, geographic maps, time series examples | | [02_benchmark_analysis.ipynb](notebooks/02_benchmark_analysis.ipynb) | Encoder comparison, whitening effect, uni vs multi, ranking | ## Dataset Description This dataset supports the comparative evaluation of time series embedding methods for piezometric groundwater stations. It contains: - **Station metadata** (4210 stations): coordinates, hydrogeological labels (milieu_eh), department, altitude, and derived statistics - **Univariate daily series** (2000 stations, ~10.6M rows): groundwater level (niveau_nappe_eau) - **Multivariate daily series** (2000 stations, ~10.6M rows): groundwater level + 3 ERA5 covariates (temperature_2m, total_precipitation, potential_evaporation) ## Files | File | Rows | Size | Description | |------|------|------|-------------| | data/station_metadata.parquet | 4,210 | 258 KB | Station coordinates, labels, properties | | data/piezo_daily_uni.parquet | 10.6M | 38 MB | Univariate daily groundwater level | | data/piezo_daily_multi.parquet | 10.6M | 119 MB | Multivariate (level + 3 ERA5 covariates) | ## Source - Groundwater data: [BRGM HubEau API](https://hubeau.eaufrance.fr/page/api-piezometrie) - Climate data: [ERA5 reanalysis](https://doi.org/10.1002/qj.3803) (Hersbach et al., 2020) - Labels: [BDLISA](https://bdlisa.eaufrance.fr/) hydrogeological environments ## Usage ## Associated Repository Full benchmark code, trained models, and analysis notebooks: https://scm.univ-tours.fr/ringuet/aida_embedding_benchmark ## Citation
提供机构:
xairon
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集旨在为时间序列嵌入方法的对比评估提供标准化基准,聚焦于法国地下水位的每日观测记录。其构建过程整合了多重权威数据源:地下水动态数据源自法国地质矿产调查局(BRGM)的HubEau API,覆盖约4200个监测站点;气候协变量取自ERA5再分析资料,包含2米温度、总降水量及潜在蒸发量三个关键因子;同时,借助BDLISA水文地质数据库为各站点赋予地层环境标签。最终生成三份核心文件:站点元数据表、单变量(仅地下水位)及多变量(水位与气候协变量)日度序列,分别存储为Parquet格式,单变量与多变量序列均包含约1060万条记录。
特点
该数据集最显著的特征在于其专为嵌入方法评测设计的双轨并行结构:单变量序列侧重于水位本身的时间动态模式,多变量序列则引入气象协变量以考察外源信息对嵌入表示的影响。约2000个站点同时提供两种模态,便于控制变量实验。此外,数据集融合了空间维度信息——站点坐标、海拔及水文地质标签,支持跨区域泛化能力检验。规模上,近11年的日度记录覆盖丰枯水文周期,既保证了统计显著性,又保留了实际应用中的复杂时序特征,如季节性与趋势分量。
使用方法
使用时,研究人员可通过Parquet高效载入数据,利用`station_metadata`进行站点筛选与标注,而后选取`piezo_daily_uni`或`piezo_daily_multi`分别开展单变量或多变量时间序列嵌入学习。配套Jupyter笔记本提供了完整的工作流示例:`01_data_exploration.ipynb`演示数据探索与可视化,`02_benchmark_analysis.ipynb`则展示了编码器对比、白化效应及排序分析等标准评估流程。关联代码仓库中还包含了预训练模型与完整基准测试代码,便于复现与扩展。数据遵循Apache-2.0许可,可直接用于学术研究与工程开发。
背景与挑战
背景概述
地下水位的精准监测与预测是水文地质学与水文学研究中的核心议题。针对时间序列嵌入方法在压电测站数据上的比较评估需求,BRGM与法国研究机构联合构建了Piezo-Embedding-Benchmark数据集,收录了法国约4200个监测站的日尺度地下水位数据,并融合ERA5再分析气候协变量(温度、降水、潜在蒸散发)与BDLISA水文地质标签。该数据集源自BRGM HubEau API、ERA5再分析资料及BDLISA数据库,自发布以来为时间序列特征提取、表列分类及多变量回归任务提供了标准化基准,推动了嵌入方法在地下水位动态建模中的可重复性与对比性研究。
当前挑战
该数据集所解决的领域挑战在于地下水时间序列的异质性与高维时空耦合建模难题:单一监测站序列常受缺失值与非线性气候驱动影响,而多站联合建模需兼顾地理异质性与水文地质类型差异。构建过程中面临多重障碍:1)整合BRGM多源API数据时,需清洗20余年跨度的不规则时间点与缺失记录;2)ERA5再分析数据与实测水位在时空分辨率上的匹配需重采样与插值,确保协变量一致性;3)水文地质标签(milieu_eh)来自BDLISA分类体系,需处理多尺度地质单元间的标签冲突与歧义。这些挑战迫使研究者开发鲁棒的嵌入方法以平衡序列保真度与泛化能力。
常用场景
经典使用场景
地下水水位时间序列嵌入方法比较评估是piezo-embedding-benchmark数据集最经典的使用场景。该数据集汇集了法国约4200个监测站的逐日地下水水位数据,并配以ERA5再分析气候协变量与水文地质标签,为单变量及多变量时间序列嵌入方法提供了标准化的测试平台。研究者可通过对比不同嵌入策略在地下水水位预测、特征提取以及水文地质分类等任务上的表现,系统评估各类方法的优劣。该数据集不仅覆盖广泛的时空尺度,还提供了详尽的站点元数据,从而支持对嵌入方法鲁棒性与泛化能力的深入分析,是水文时序建模领域不可或缺的基准资源。
实际应用
该数据集在水资源管理与防灾减灾领域具有广泛的实际应用前景。基于该基准训练出的嵌入模型,可用于地下水位智能监测与异常预警,帮助水文学家在海量监测数据中快速识别典型动态模式与潜在风险,例如干旱导致的持续水位下降或暴雨引发的快速回升。结合ERA5气象协变量,模型还能评估气候变化对地下水补给过程的影响,为区域水资源的可持续利用提供决策支持。此外,该数据集输出的嵌入特征可直接应用于水文地质单元分类、缺失数据插补以及长期水位趋势预测等实务工作,显著提升地下水建模的效率与准确性。
衍生相关工作
该数据集诞生后,已催生了一系列关于时间序列嵌入方法的衍生研究工作。基于该基准,研究者开发并验证了多种适用于地下水动态的对比学习框架,如引入季节性分解的增强嵌入方法,以及融合空间邻域信息的图神经网络模型。与之配套的完备分析代码库和预训练模型,为后续探索多任务学习、域适应以及物理约束的神经网络架构提供了可复现的起点。这些衍生工作不仅深化了对地下水系统动力学的理解,也为其他地球科学领域的时间序列分析提供了方法论借鉴,展现出该数据集在水文智能分析领域的持续影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作