rdjarbeng/who-epidemic-events
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/rdjarbeng/who-epidemic-events
下载链接
链接失效反馈官方服务:
资源简介:
该数据集展示了将Google的Groundsource方法(基于LLM的非结构化文本结构化提取)从洪水预测转移到流行病监测的应用。通过从3,177篇WHO疾病爆发新闻(DONs)文章中提取结构化流行病事件数据(如疾病、国家、日期、病例数、死亡数、严重程度等),并使用Qwen2.5-72B-Instruct模型进行处理。数据集包含213个训练样本,涵盖了79种独特疾病和85个国家。实验结果表明,该方法在疾病名称提取、病例数提取等方面具有较高的准确率,且非洲地区在疾病监测中得到了较好的体现。
This dataset demonstrates transferring Googles Groundsource methodology (LLM-based structured extraction from unstructured text) from flood prediction to epidemic surveillance. It extracts structured epidemic event data (e.g., disease, country, date, cases, deaths, severity) from 3,177 WHO Disease Outbreak News (DONs) articles using the Qwen2.5-72B-Instruct model. The dataset includes 213 training examples, covering 79 unique diseases and 85 countries. The results show high accuracy in disease name extraction, case count extraction, etc., and Africa is well-represented in disease surveillance.
提供机构:
rdjarbeng
搜集汇总
数据集介绍

构建方式
该数据集基于世界卫生组织(WHO)发布的三千一百七十七篇疾病暴发新闻(DONs)构建而成。研究团队借鉴了Google提出的‘Groundsource’方法论,并利用大型语言模型Qwen2.5-72B-Instruct对非结构化文本进行分析,从中提取出结构化的流行病事件信息。具体流程包括:首先通过聊天补全接口解析新闻内容,提取疾病名称、国家、日期、病例数、死亡人数和严重程度等关键字段;随后将提取的国家名称转换为地理坐标,最终生成包含经纬度标签的流行病事件数据集。由于API速率限制,当前版本共处理并收录了213篇文章的事件记录。
特点
该数据集跨越2004至2026年间的时间范围,覆盖了79种独特疾病和85个国家,其中非洲地区事件占比高达50.7%,弥补了以往类似数据集在欠发达区域代表性不足的空白。数据以表格形式组织,每条记录包含唯一标识符、发布日期、事件日期、病例与死亡统计、严重程度分级以及地理坐标等字段。值得关注的是,Qwen2.5-72B模型在疾病名称提取上达到了约95.6%的准确率,病例数提取成功率为86.4%,展现出强大的文本标准化能力,能够将混乱的原始标题自动转化为规范的疾病诊断名称。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据,使用`load_dataset('rdjarbeng/who-epidemic-events')`命令即可获取包含训练集的数据对象。随后可借助Pandas库将数据集转换为DataFrame格式,便于进行流行病学分析、疾病分布统计或地理空间可视化。例如,用户可按疾病种类进行频次统计,快速识别高发疫情;或通过筛选特定国家列表,聚焦于非洲、亚洲等重点地区的疾病负担研究。该数据集适宜用于事件监测系统的验证、流行病学建模训练以及LLM信息抽取能力的基准测试。
背景与挑战
背景概述
在全球公共卫生领域,及时准确的流行病事件监测是防控疫情蔓延的关键基础。世界卫生组织(WHO)自2004年起持续发布《疾病暴发新闻》(Disease Outbreak News, DONs),以非结构化文本形式记录了全球范围内的重要传染病暴发事件。然而,从海量的叙事性文本中高效提取结构化流行病事件数据,长期以来一直是疾病监测体系面临的核心挑战。为应对这一难题,rdjarbeng研究团队借鉴了Google提出的Groundsource方法论——一种基于大语言模型(LLM)从非结构化文本中提取结构化数据的技术,并将其从洪水预测领域创新性地迁移至流行病监测。该团队于2025年创建了WHO Epidemic Events数据集,通过使用Qwen2.5-72B-Instruct模型从3,177篇WHO疾病暴发新闻中自动提取疾病名称、国家、事件日期、病例数、死亡数和严重程度等关键字段,并完成地理编码。这一工作不仅验证了LLM在跨领域信息提取中的泛化能力,更为全球流行病事件数据库的自动化构建提供了新范式,对推动事件驱动型疾病监测系统的发展具有重要影响力。
当前挑战
该数据集面临的核心挑战首先体现在领域问题的复杂性上:流行病事件信息提取涉及多语种、多疾病类型的非规范文本,疾病名称常以模糊表述(如‘急性呼吸道感染’)或变种名称(如‘Mpox’)形式出现,且病例数与死亡数的声明方式因国家报告习惯而异,这对LLM的语义理解与归一化能力提出了极高要求。在数据构建过程中,团队遇到了若干具体挑战:一是API速率限制导致仅能处理3,177篇文章中的213篇,样本量不足可能影响数据集的完备性与代表性;二是缺乏与官方国际疾病数据库(IDB)的黄金标准比对——IDB为德语且需通过URL匹配,使得提取精度评估只能依赖于标题推导的近似标注,而非金标准;三是采用简单的国家质心地理编码方式,无法反映疫情实际发生的亚国家级空间异质性;四是未完成与气温、湿度等物理数据的配对,限制了数据集在传染病传播预测中的深层应用潜力。
常用场景
经典使用场景
在传染病流行病学与公共卫生监测领域,该数据集最经典的使用场景是基于大型语言模型从非结构化新闻文本中自动抽取结构化疫情事件信息。研究者可借助该数据集复现并验证Groundsource方法学从洪水预测向疫情监测的迁移能力,利用其中包含的疾病名称、国家、事件日期、病例数与死亡数等字段,训练或评估LLM在细粒度疫情事件抽取任务上的表现。数据集涵盖79种疾病与85个国家的213条标注事件,尤其适用于评估模型在低资源环境下的泛化性能与鲁棒性。
解决学术问题
该数据集有效解决了传染病事件监测领域长期存在的结构化信息自动获取难题。传统依赖人工阅读与编码的方式耗时且覆盖面有限,而该数据集的构建证明了单一LLM(Qwen2.5-72B-Instruct)在疾病名称抽取(95.6%准确率)、病例数抽取(86.4%)与地理编码(91.1%成功率)等任务上可达甚至超越多模型集成方法的表现。其意义在于开创性地将Groundsource流水线拓展至公共卫生领域,为大规模、低成本的全球疫情事件数据库自动化构建提供了坚实基础,显著推动了事件驱动型监测系统的学术发展。
衍生相关工作
围绕该数据集已衍生出一系列前沿工作。基础性贡献来自Consoli等人的Groundsource方法学论文(arXiv:2408.14277),首次提出利用LLM从洪水灾难文本中抽取结构化事件。随后,JRC eKG论文(arXiv:2509.02258)将其扩展至疫情信息抽取,并通过多LLM投票机制提升性能至F1=0.658。本数据集进一步验证了单一LLM在疫情领域的可迁移性,并开源了完整的抽取流水线代码。此外,配套的分析空间(Groundsource Analysis)展示了洪水与疫情数据的跨域对比,为未来通用事件抽取框架的构建提供了实证基础。
以上内容由遇见数据集搜集并总结生成



