five

Structured dataset of reported cloud seeding activities in the United States (2000–2025)

收藏
arXiv2025-05-03 更新2025-05-07 收录
下载链接:
https://doi.org/10.5281/zenodo.14925812
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集收集了美国2000年至2025年间报告的云播活动,包括年份、季节、州、播种剂、使用设备以及目的。利用OpenAI的o4-mini大型语言模型(LLM),结合多阶段PDF-to-text转换和响应解析代码,从美国国家海洋和大气管理局(NOAA)的836份历史报告中提取数据。该数据集在所有字段上实现了94.72%的人验证准确率,并在Zenodo上公开。

This dataset collects reported cloud seeding activities in the United States between 2000 and 2025, including the year, season, state, seeding agent, equipment used, and purpose. Data was extracted from 836 historical reports of the U.S. National Oceanic and Atmospheric Administration (NOAA) using OpenAI's o4-mini Large Language Model (LLM), combined with multi-stage PDF-to-text conversion and response parsing code. This dataset achieved a human-verified accuracy of 94.72% across all fields, and is publicly available on Zenodo.
提供机构:
哥伦比亚大学(纽约,美国)
创建时间:
2025-05-03
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合美国国家海洋和大气管理局(NOAA)2000至2025年间的836份云播种活动报告构建而成。研究团队采用多阶段处理流程,包括PDF至文本的转换、光学字符识别(OCR)技术以及基于OpenAI o4-mini大语言模型(LLM)的结构化信息提取。预处理阶段通过自定义Python管道合并相关文件,并针对扫描文档采用pymupdf、pytesseract和llm-whisperer三种文本提取方法。最终数据经过链式思维提示工程优化,以94.72%的验证准确率提取了年份、季节、州属、催化剂类型等9个关键字段。
特点
作为美国首个系统化整理的云播种活动数据集,其核心价值在于解决了历史文档格式不统一导致的数据碎片化问题。数据集涵盖地理分布、时间跨度和技术参数三个维度:记录了犹他州、科罗拉多州等9个西部州的地面碘化银播撒作业,以及得克萨斯州以增雨防雹为目标的空中作业特征。时间序列上呈现2002-2023年活动量递减、2024年后回升的趋势特点。技术层面则完整保留了催化剂类型、投放装置及作业目的等操作细节,为分析天气干预技术的演变提供了标准化数据基础。
使用方法
研究者可通过Zenodo平台获取结构化CSV文件,利用内置字段进行多维分析。典型应用包括:通过时空聚类识别区域作业模式,结合agent和apparatus字段追踪技术演进,或基于purpose字段评估政策效果。配套GitHub仓库提供了完整的预处理和LLM交互代码,支持扩展至1972-1999年潜在历史数据的处理。需注意数据源自运营商自报告,建议交叉验证关键结论;使用LLM-whisperer工具时需遵守每日100页的免费限额,且OpenAI模型调用涉及成本核算。可视化脚本可生成州级分布热力图和年度活动趋势曲线等标准分析图表。
背景与挑战
背景概述
《美国人工降雨活动结构化数据集(2000-2025)》由哥伦比亚大学Jared Joseph Donohue和Kara D. Lamb团队于2025年构建,旨在解决人工降雨领域长期存在的数据可及性问题。该数据集通过大语言模型技术处理了美国国家海洋和大气管理局(NOAA)836份历史报告,提取了年份、季节、州、催化剂类型、投放装置及目的等关键字段,准确率达94.72%。作为首个系统性整合美国人工降雨操作记录的结构化数据集,它不仅填补了《1972年天气改造报告法案》实施以来数据标准化处理的空白,更为研究人工降雨技术演变、区域气候干预效果评估提供了重要基础。数据集所采用的LLM驱动历史文档数字化方法,对水文学、气候工程等领域的档案挖掘具有范式意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,人工降雨效果评估长期受制于操作记录的非标准化,包括催化剂剂量、气象条件等关键参数的缺失,以及商业项目数据保密性导致的报告不完整;在构建技术层面,原始PDF文档存在手写注释(占43%)、低分辨率扫描件以及跨年度引用等异构性问题,迫使研究团队开发三级文本提取管道(pymupdf→pytesseract→llm-whisperer)。大语言模型固有的幻觉现象导致部分字段需人工校正,特别是季节(87.94%准确率)、催化剂类型(89.95%)等语义复杂字段。数据集尚未涵盖1972-1999年的早期记录,这一时段的数据缺失可能影响长期趋势分析的完整性。
常用场景
经典使用场景
在气象学和环境科学领域,该数据集为研究人工影响天气活动的长期趋势提供了重要支持。通过分析2000年至2025年间美国各地报告的云播种活动,研究人员能够追踪不同季节、州份和目的下的云播种剂使用情况及其部署方法。数据集的结构化特性使得跨时间跨区域的比较分析成为可能,为理解人工影响天气技术的演变及其效果评估奠定了数据基础。
解决学术问题
该数据集填补了美国人工影响天气活动数据可及性方面的空白,解决了长期以来由于报告格式不统一而导致的数据难以整合和分析的问题。通过利用大型语言模型从历史文档中提取结构化数据,该工作不仅提升了数据处理的效率,还为环境科学领域提供了一种可扩展的数据提取框架,有助于推动基于证据的研究和政策评估。
衍生相关工作
该数据集衍生的经典工作包括对云播种技术效果的系统性评估、不同云播种剂和部署方法的比较研究,以及人工影响天气活动对区域气候影响的长期分析。此外,该数据集还被用于开发新的数据提取和处理方法,推动了大型语言模型在科学数据管理中的应用研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作