five

LEMONADE

收藏
arXiv2025-06-01 更新2025-06-05 收录
下载链接:
https://github.com/stanford-oval/Lemonade
下载链接
链接失效反馈
官方服务:
资源简介:
LEMONADE是一个包含39,786个事件的大型多语言专家注释摘要事件数据集,涵盖20种语言和171个国家,具有广泛的地区特定实体覆盖范围。该数据集基于部分重新注释的武装冲突位置和事件数据(ACLED)子集,该数据集记录了十多年的全球冲突事件。LEMONADE旨在解决全球事件分析中多语言来源聚合的挑战,引入了摘要事件提取(AEE)及其子任务摘要实体链接(AEL)。与传统的基于跨度的事件提取不同,我们的方法通过整体文档理解检测事件参数和实体,并在多语言数据集中进行标准化。我们在这些任务上评估了各种大型语言模型(LLMs),并调整现有的零样本事件提取系统,以及基准监督模型。此外,我们引入了ZEST,一个用于AEL的新型零样本检索系统。

LEMONADE is a large multilingual expert-annotated summary event dataset containing 39,786 events, covering 20 languages and 171 countries, with extensive coverage of region-specific entities. This dataset is based on a subset of the partially reannotated Armed Conflict Location & Event Data (ACLED), which documents over a decade of global conflict events. LEMONADE aims to address the challenge of multilingual source aggregation in global event analysis, and introduces Summary Event Extraction (AEE) and its subtask Summary Entity Linking (AEL). Unlike traditional span-based event extraction, our method detects event arguments and entities via holistic document understanding and standardizes them across multilingual datasets. We evaluate various Large Language Models (LLMs) on these tasks, adapt existing zero-shot event extraction systems, and benchmark supervised models. Additionally, we introduce ZEST, a novel zero-shot retrieval system for AEL.
提供机构:
斯坦福大学, 西北大学, ACLED
创建时间:
2025-06-01
原始信息汇总

LEMONADE 数据集概述

数据集基本信息

  • 名称: LEMONADE (Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World)
  • 类型: 多语言抽象事件抽取数据集
  • 语言: 支持20种语言(英语、西班牙语、阿拉伯语、法语、意大利语、俄语、德语、土耳其语、缅甸语、印尼语、乌克兰语、韩语、葡萄牙语、荷兰语、索马里语、尼泊尔语、中文、波斯语、希伯来语、日语)
  • 数据来源: 新闻文章

数据集内容

  • 标注类型: 专家标注的抽象事件
  • 任务支持:
    • 事件检测 (ED)
    • 抽象事件论元抽取 (AEAE)
    • 抽象实体链接 (AEL)
  • 数据分割: 开发集 (dev) 和测试集 (test)

获取方式

使用要求

  • Python版本: 3.12
  • 包管理工具: Pixi
  • LLM API: 需要OpenAI或Anthropic等大型语言模型API密钥

性能指标

  • 处理速度: 500个英语事件约30分钟(使用gpt-4.1-mini模型)
  • API成本: 500个事件约31美元(使用gpt-4.1-mini模型)
  • 评估时间: 额外20分钟(含地理编码步骤)

引用格式

bibtex @inproceedings{semnani2025lemonade, title={{LEMONADE}: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World}, author={Semnani, Sina J. and Zhang, Pingyue and Zhai, Wanyue and Li, Haozhuo and Beauchamp, Ryan and Billing, Trey and Kishi, Katayoun and Li, Manling and Lam, Monica S.}, booktitle={Findings of the Association for Computational Linguistics: ACL 2025}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
LEMONADE数据集的构建基于ACLED(Armed Conflict Location & Event Data)项目,这是一个十多年来系统记录全球冲突事件的非营利组织。为了适应NLP研究的需求,LEMONADE对ACLED数据进行了清洗和部分重新标注。数据集覆盖了20种语言和171个国家的39,786个事件,特别关注了区域特定实体的广泛覆盖。在构建过程中,首先从2024年1月至2025年1月的ACLED数据中筛选出新闻文章,去除广告和无关内容,并使用GPT-4o进行语言检测。随后,对位置参数进行了重新标注,确保所有位置信息仅基于文本支持。此外,还标准化了事件模式,并生成了10,707个实体的描述,以促进基于检索的实体链接。
使用方法
LEMONADE数据集的使用方法包括事件检测(ED)、抽象事件参数提取(AEAE)和抽象实体链接(AEL)三个核心子任务。用户可以通过给定的代码本和文本,提取抽象事件,所有事件参数都被规范化为数值、分类标签或预定义数据库中的实体。数据集支持零样本和监督设置下的模型评估,适用于大型语言模型(LLMs)和专门的事件提取模型。此外,数据集还引入了ZEST,一种新颖的多语言零样本检索基于实体链接系统,用于AEL子任务。用户可以通过GitHub获取数据集和代码,进行进一步的研究和应用开发。
背景与挑战
背景概述
LEMONADE是由斯坦福大学、西北大学和ACLED(Armed Conflict Location & Event Data)的研究团队于2025年发布的一个大规模多语言专家标注的抽象事件数据集。该数据集基于ACLED的全球冲突事件数据,涵盖了20种语言和171个国家的39,786个事件。LEMONADE旨在解决多语言事件分析的挑战,特别是通过引入抽象事件提取(AEE)和抽象实体链接(AEL)任务,以更全面地理解和规范化跨语言的事件信息。这一数据集的发布为全球冲突事件的分析提供了高质量的资源,支持了人道主义工作和政策决策。
当前挑战
LEMONADE面临的挑战主要包括两个方面:1) 领域问题的挑战,即如何有效地从多语言新闻文本中提取和规范化事件信息,尤其是在不同语言和文化背景下的事件表达差异较大;2) 构建过程中的挑战,包括如何确保专家标注的一致性和准确性,以及如何处理和整合来自不同语言和地区的事件数据。此外,数据集中许多实体缺乏维基百科条目,这为实体链接系统带来了额外的困难。
常用场景
经典使用场景
LEMONADE数据集在冲突事件分析和多语言事件提取研究中具有广泛的应用。该数据集覆盖了20种语言和171个国家的39,786个事件,特别适用于全球范围内的冲突监测和人道主义干预评估。研究者可以利用该数据集进行抽象事件提取(AEE)和抽象实体链接(AEL)任务,从而实现对多语言新闻文档的深度理解和结构化信息提取。
解决学术问题
LEMONADE解决了多语言事件提取中的关键问题,包括跨语言事件参数归一化和区域特定实体的链接。传统的事件提取方法依赖于基于文本跨度的标注,而LEMONADE通过整体文档理解和多语言归一化,显著提升了事件参数和实体检测的准确性。此外,该数据集还填补了现有事件提取资源在语言多样性和地理覆盖上的不足,为全球事件分析提供了更全面的视角。
实际应用
LEMONADE的实际应用场景包括国际和平维护、人道主义干预评估和冲突趋势分析。例如,联合国国际移民组织和国际救援委员会等机构可以利用该数据集跟踪强制迁移事件和评估干预措施的效果。此外,该数据集还可用于构建多语言新闻监控系统,帮助政府和国际组织实时掌握全球冲突动态。
数据集最近研究
最新研究方向
LEMONADE数据集作为全球首个覆盖20种语言、171个国家的大规模专家标注冲突事件数据集,其最新研究聚焦于抽象事件抽取(AEE)与多语言实体链接(AEL)两大前沿方向。在AEE任务中,研究重点转向基于整体文档理解的论元规范化抽取,突破传统基于文本跨度的限制,通过预定义本体实现事件参数的类型化表示(如布尔值、枚举值)。针对AEL任务,学界提出ZEST等零样本检索系统,利用大语言模型生成实体描述查询,显著提升低资源语言和长尾实体的链接效果。该数据集推动了事件分析从单语言向多语言、从句子级向文档级、从抽取式向抽象式的范式转变,尤其为联合国难民署等机构跟踪区域冲突提供了标准化分析工具。当前热点包括:大语言模型在零样本事件抽取中的迁移性能优化、跨语言事件模式对齐,以及专家标注与弱监督方法的融合以降低标注成本。
相关研究论文
  • 1
    LEMONADE: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World斯坦福大学, 西北大学, ACLED · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作