Googles Groundsource flash flood dataset
收藏github2026-03-17 更新2026-03-19 收录
下载链接:
https://github.com/SharathSivamalaisamy/groundsource
下载链接
链接失效反馈官方服务:
资源简介:
Google使用Gemini从150多个国家的新闻文章中提取了260万次突发洪水事件(2000-2026年)。原始数据是一个667MB的Parquet文件,包含未记录的WKB几何图形和位置标签。该数据集通过空间连接丰富了国家、大陆和年份信息。
Google extracted 2.6 million sudden flood events (2000–2026) from news articles across over 150 countries using Gemini. The raw dataset is a 667 MB Parquet file containing unrecorded WKB geometry and location tags. This dataset has been enriched with country, continent, and year information via spatial joins.
创建时间:
2026-03-17
原始信息汇总
Groundsource 数据集概述
数据集基本信息
- 名称:Groundsource 洪水数据集
- 数据来源:Google Research 使用 Gemini 模型从新闻文章中提取
- 原始数据获取:Zenodo (CC BY 4.0 许可)
- 数据量:2,646,302 条洪水事件记录
- 覆盖范围:超过 175 个国家,时间跨度为 2000 年至 2026 年
- 原始文件:667MB Parquet 文件
数据内容与处理
- 原始字段:包含
uuid、area_km2、geometry(WKB 二进制格式)、start_date、end_date五个未充分说明的列。 - 数据增强:该 Python 包对原始数据进行了解码和丰富处理,新增字段包括:
centroid_lon和centroid_lat:从 WKB 多边形解码出的几何中心点坐标。country和iso_a3:通过与 Natural Earth 数据集进行空间连接获得的国家信息。continent:所属大洲。year:从start_date中提取的年份。
主要功能与访问方式
- 核心类:
FloodDB,首次运行时自动下载并增强数据,后续加载使用本地缓存。 - 数据查询:支持按国家、城市(默认100公里半径)、大洲或地理边界框进行搜索,并可指定年份范围。
- 趋势分析:提供年度事件计数、增长率计算、多国对比、事件总数排名、增长加速排名等功能。
- 可视化:内置生成曲棍球杆图、偏差分析图、国家排名图、国家增长图等图表的功能。
- 原始数据访问:可通过
to_dataframe()方法获取包含所有增强字段的完整 DataFrame。
数据特性与注意事项
- 生成方法:Gemini 模型解析了约 500 万篇新闻文章。
- 准确度:根据 Google 评估,事件地点和时间准确度约为 60%,具有实际使用价值的记录约占 82%。
- 报告偏差:数据显示 2000 年有 498 起事件,2024 年有 402,012 起,这并非表明洪水事件实际增长了 807 倍,而是反映了数字新闻覆盖率的急剧增长。进行趋势分析时需考虑此报告偏差,可使用
bias_check()和plot_bias()进行可视化评估。
相关链接
- 原始数据集介绍:https://research.google/blog/introducing-groundsource-turning-news-reports-into-data-with-gemini/
- 数据集下载地址:https://zenodo.org/records/18647054
- 引用 DOI:https://zenodo.org/records/18647054
- 偏差分析图示例:https://raw.githubusercontent.com/SharathSivamalaisamy/groundsource/main/charts/02_bias_normalized.png
- 国家排名图示例:https://raw.githubusercontent.com/SharathSivamalaisamy/groundsource/main/charts/04_top_countries.png
搜集汇总
数据集介绍

构建方式
在洪水灾害研究领域,数据采集的广度与精度直接影响模型的可靠性。Google Groundsource 山洪数据集通过Gemini大语言模型,系统解析了自2000年至2026年间全球超过500万篇新闻文章,从中自动化提取出约260万次山洪事件记录。其构建过程涉及对非结构化文本的语义识别与时空信息抽取,原始数据以包含WKB几何二进制格式的Parquet文件存储,覆盖了175个国家和地区,形成了跨时空维度的灾害事件库。
特点
该数据集的核心特征在于其大规模、全球覆盖与多维度属性。它不仅记录了每次洪水事件的唯一标识、估算面积及起止时间,还通过几何解码与空间关联,为每个事件生成了多边形边界、质心坐标,并自动标注了所属国家、ISO代码及大洲信息。数据集特别揭示了新闻报道随时间增长的固有偏差,例如2000年仅记录498次事件,而2024年则达到40万余次,这反映了数字新闻普及度的影响而非灾害频率的真实倍增,为偏差分析与数据校正提供了明确线索。
使用方法
借助配套的Python工具包,研究人员能够高效地访问与分析此数据集。初始化数据库时会自动下载并完成几何解码与国家边界空间连接,随后可通过国家、城市、大洲或地理边界框进行灵活检索。该工具包内置了趋势分析、增长率计算、国家排名比较以及多种可视化图表生成功能,例如偏差检查图和顶级国家事件分布图,同时支持将数据导出为结构化的DataFrame,便于进一步的时空建模与灾害风险评估。
背景与挑战
背景概述
Google's Groundsource 山洪数据集代表了利用大语言模型从非结构化文本中提取地理空间信息的创新尝试。该数据集由Google Research于2026年创建,其核心研究问题在于如何将全球新闻报导中零散的山洪事件信息,系统性地转化为结构化的、可进行时空分析的地理数据。通过Gemini模型解析约五百万篇新闻文章,该数据集最终收录了跨越175个国家、时间跨度从2000年至2026年的约260万条山洪事件记录。这项工作不仅为全球水文灾害监测提供了前所未有的细粒度数据源,也推动了自然语言处理与地理信息科学交叉领域的发展,对气候适应、灾害风险评估及应急管理研究产生了深远影响。
当前挑战
该数据集面临的核心挑战主要源于其数据生成机制与后续应用。在领域问题层面,其旨在解决的全球山洪事件动态监测与趋势分析,受到新闻报道固有偏差的严重制约。数字新闻覆盖率在时间维度上的非线性增长,导致事件记录数量呈现虚假的指数级上升,这为准确量化山洪灾害的真实变化趋势带来了根本性困难。在构建过程层面,挑战体现在从原始新闻文本中自动化提取地理信息的复杂性上。尽管采用了先进的Gemini模型,但数据集中地理位置与时间信息的自动识别与匹配仍存在误差,其官方评估的准确率约为60%,这要求后续研究必须谨慎处理数据的不确定性,并开发相应的偏差校正与质量控制方法。
常用场景
经典使用场景
在气候灾害研究领域,Google's Groundsource flash flood dataset 为全球山洪事件的时空分布分析提供了关键数据支撑。该数据集通过 Gemini 模型从新闻文章中提取了超过 260 万条山洪事件记录,覆盖 175 个国家,时间跨度从 2000 年至 2026 年。研究者利用其提供的空间几何信息与时间标签,能够精确追踪山洪的发生频率、地理集中区域以及季节性变化模式,从而揭示全球范围内山洪灾害的宏观演变规律。
实际应用
在实际应用层面,该数据集为灾害预警系统优化、应急资源调配与保险风险评估提供了数据基础。政府部门与救援机构可依据其揭示的高风险区域与时间规律,制定针对性的防灾预案;保险公司则能利用历史事件分布优化保费模型。同时,城市规划和基础设施建设项目可参考山洪频发区域数据,规避潜在风险,提升社区韧性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在灾害数据融合、偏差校正与预测模型构建。例如,学者们结合卫星遥感与社交媒体数据,验证并补充了新闻来源的覆盖范围;针对报道偏差问题,开发了时间序列标准化方法以剥离媒体增长效应;此外,基于该数据集训练的机器学习模型,已被用于山洪发生概率的动态预测,推动了智能防灾技术的发展。
以上内容由遇见数据集搜集并总结生成



