LEMONADE

github2025-06-02 更新2025-06-16 收录

下载链接：

https://github.com/stanford-oval/Lemonade

下载链接

链接失效反馈

官方服务：

资源简介：

LEMONADE是一个大型多语言专家标注的抽象事件数据集，包含20种语言的新闻文章事件注释。

LEMONADE is a large-scale, multilingual expert-annotated abstract event dataset, containing event annotations for news articles in 20 languages.

创建时间：

2025-05-28

原始信息汇总

LEMONADE 数据集概述

数据集基本信息

全称: LEMONADE: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World
开发机构: 斯坦福大学、西北大学、ACLED
数据类型: 多语言新闻文章的事件标注数据集
语言数量: 20种
- 包括: 英语(en)、西班牙语(es)、阿拉伯语(ar)、法语(fr)、意大利语(it)、俄语(ru)、德语(de)、土耳其语(tr)、缅甸语(my)、印尼语(id)、乌克兰语(uk)、韩语(ko)、葡萄牙语(pt)、荷兰语(nl)、索马里语(so)、尼泊尔语(ne)、中文(zh)、波斯语(fa)、希伯来语(he)、日语(ja)

数据集内容

标注类型: 专家标注的抽象事件抽取
数据来源: 新闻文章
数据获取: 可通过Hugging Face Hub访问 (https://huggingface.co/datasets/stanford-oval/Lemonade)

技术特性

处理任务:
- 事件检测(ED)
- 抽象事件论元抽取(AEAE)
- 抽象实体链接(AEL)
支持模型: 需要大型语言模型(LLM)支持
- 支持OpenAI、Anthropic等API
- 也可使用本地LLM

使用方式

运行模式:
- 仅事件检测(ED)
- 完整流程(ED+AEAE+AEL)
命令行参数:
- --output_file: 输出文件路径
- --language: 处理语言
- --examples_per_language: 每语言处理文章数
- --task: 任务类型(event_detection/full)
- --engine: LLM引擎
- --data_split: 数据集分割(dev/test)
- --entity_database_path: 实体数据库路径

性能指标

处理速度: 500个英语事件约30分钟(GPT-4.1-mini)
API成本: 500个事件约31美元
评估时间: 约20分钟(含地理编码)
缓存机制: 使用Redis和Diskcache

引用信息

bibtex @inproceedings{semnani2025lemonade, title={{LEMONADE}: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World}, author={Semnani, Sina J. and Zhang, Pingyue and Zhai, Wanyue and Li, Haozhuo and Beauchamp, Ryan and Billing, Trey and Kishi, Katayoun and Li, Manling and Lam, Monica S.}, booktitle={Findings of the Association for Computational Linguistics: ACL 2025}, year={2025} }

搜集汇总

数据集介绍

构建方式

LEMONADE数据集作为多语言抽象事件抽取领域的重要资源，其构建过程体现了严谨的学术规范。研究团队从20种语言的新闻文章中收集语料，涵盖英语、西班牙语、阿拉伯语等主要语种。通过专家标注的方式对事件要素进行抽象化处理，确保标注质量达到学术研究标准。数据集采用标准的开发集和测试集划分策略，便于模型评估和比较。

特点

该数据集最显著的特点是覆盖语言的多样性和标注的专业性。包含20种语言的平行语料，特别关注缅甸语、索马里语等资源稀缺语言，为低资源语言处理研究提供宝贵素材。采用抽象化事件标注框架，突破传统事件抽取的模板限制。每个事件都经过领域专家严格标注，并配备详细的实体知识库，支持端到端的抽象事件理解任务。

使用方法

研究人员可通过Hugging Face平台便捷获取该数据集。使用流程设计科学合理，通过Pixi包管理器实现环境一键配置，支持多种主流LLM接口。运行脚本提供细粒度参数控制，包括语言选择、处理条数、任务类型等核心选项。系统采用Redis和Diskcache双重缓存机制优化处理效率，并详细记录API调用成本，为大规模实验提供实用参考。

背景与挑战

背景概述

LEMONADE数据集由斯坦福大学、西北大学与ACLED（武装冲突地点与事件数据库）联合研发，于2025年正式发布，旨在构建一个覆盖20种语言的大规模专家标注抽象事件数据集。该数据集聚焦于从多语言新闻文本中提取结构化事件信息，解决了传统事件抽取方法在跨语言泛化性和抽象表示上的局限性。通过融合语言学专家知识与大语言模型技术，LEMONADE为地缘政治分析、社会动态监测等现实场景提供了标准化评估基准，显著推动了计算社会科学与自然语言处理的交叉研究进展。

当前挑战

该数据集面临的核心领域挑战在于跨语言事件抽象表示的统一建模，需平衡不同语种间的文化语境差异与事件要素的泛化特征。构建过程中的技术难点包括：专家标注体系在多语言场景下的语义一致性维护，低资源语言（如索马里语、尼泊尔语）的标注质量保障，以及抽象事件与实体链接的联合标注框架设计。此外，数据采集涉及敏感地缘政治事件，需处理新闻报道中的立场偏差与事实核查问题。

常用场景

经典使用场景

在跨语言事件抽取研究中，LEMONADE数据集因其覆盖20种语言的专家标注新闻语料，成为评估抽象化事件检测与论元提取模型的基准工具。研究者通过该数据集可系统分析不同语言环境下事件表述的共性与差异，尤其验证神经网络模型在低资源语言中的迁移能力。多语言平行语料的设计使得对比语言学研究和跨文化事件分析成为可能。

衍生相关工作

基于LEMONADE的典型研究包括跨语言事件链构建框架EventXpan，该工作利用数据集的抽象标注实现事件时空推演；另有学者开发了HierAE模型，通过层级注意力机制解决低资源语言事件检测问题。数据集还催生了首个面向多语言事件的评估基准MEEVAL，系统量化了现有模型在文化敏感事件理解上的表现差异。

数据集最近研究