five

MD-SEE

收藏
arXiv2025-05-13 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.08690v1
下载链接
链接失效反馈
官方服务:
资源简介:
MD-SEE数据集是一个多维度事件抽取数据集,旨在解决实际应用中事件抽取的挑战,如选择合适的模式和执行抽取过程。数据集由12个数据集组成,涵盖不同领域、复杂性和语言设置。数据集构建过程中,通过模式改写和检索增强生成,将事件抽取任务分解为模式检索和模式感知抽取。数据集的应用领域包括知识图谱构建、问答系统、信息检索和事件预测等。

The MD-SEE dataset is a multi-dimensional event extraction dataset that aims to address the challenges of event extraction in real-world applications, such as selecting appropriate extraction schemas and executing extraction procedures. The dataset consists of 12 constituent datasets covering diverse domains, complexity levels, and language settings. During the dataset construction process, the event extraction task is decomposed into schema retrieval and schema-aware extraction via schema rewriting and retrieval-augmented generation. The applicable domains of this dataset include knowledge graph construction, question answering systems, information retrieval, event prediction, and other related fields.
提供机构:
华为诺亚方舟实验室, 中国科学技术大学
创建时间:
2025-05-13
搜集汇总
数据集介绍
main_image_url
构建方式
MD-SEE数据集的构建采用了多维度整合策略,通过系统化汇集12个不同领域、复杂度及语言设置的基准数据集,形成综合性评估基准。在数据收集阶段,研究团队严格筛选开源数据集以确保法律合规性,并执行了初始数据清洗以保障质量。核心构建流程包含模式整合与跨语言子集处理:首先通过人工合并与嵌入模型编码构建模式图谱,采用贪心最大独立集算法筛选多样性模式;随后通过双向翻译技术构建中英文交叉语言子集,要求模型在跨语言场景下保持信息抽取能力。
特点
MD-SEE数据集展现出三大核心特征:多维覆盖性支持从句子级到文档级不同粒度的查询,涵盖新闻、网络安全、生物医学等多元领域;模式多样性通过300个经过语义优化的模式,有效解决传统事件抽取中模式僵化问题;语言复杂性包含单语(中/英)和跨语言(中英互译)子集,特别设计的中英模式-查询反向配对任务,显著提升了评估场景的真实性。其创新性的模式复述技术,通过大语言模型生成带详细参数描述的变体模式,有效增强了模式检索的语义匹配精度。
使用方法
该数据集支持三类核心评估范式:模式检索评估采用Recall@K指标衡量候选模式匹配精度;模式感知抽取评估基于F1分数检验参数提取准确性;端到端评估创新性提出E2E-F1复合指标,同步考核模式匹配与信息抽取性能。使用流程建议采用分层实验设计:首先通过BM25或BGE-M3等检索模型完成模式筛选,继而采用Phi-3.5或Llama-3等大语言模型进行监督微调后的模式化抽取。对于跨语言任务,需特别注意保持查询语言与模式语言的异构成对特性,以充分检验模型的模式迁移能力。
背景与挑战
背景概述
MD-SEE(Multi-Dimensional Schema-aware Event Extraction)是由华为诺亚方舟实验室和中国科学技术大学的研究团队于2025年提出的一个多维度事件抽取基准数据集。该数据集旨在解决事件抽取(Event Extraction, EE)领域中的两个核心问题:动态模式匹配与跨领域泛化能力。传统事件抽取系统通常依赖固定模式,难以适应现实场景中数百种领域特定模式的动态选择需求。MD-SEE通过整合12个跨领域数据集(涵盖新闻、金融、生物医学等多维度场景),首次构建了支持模式检索与抽取联合评估的基准,为事件抽取技术的工业落地提供了重要研究基础。其创新性体现在三方面:支持从句子级到文档级的多样化查询长度、覆盖多语言场景的跨语言子集,以及通过模式重构技术解决大型语言模型(LLMs)的模式幻觉问题。
当前挑战
MD-SEE面临的挑战主要体现在领域问题和构建过程两个层面。在领域问题方面:1) 模式动态适配的复杂性,现实场景需要从数百个候选模式中选择适配模板,而现有系统要么僵化固定模式,要么简单拼接所有模式导致冲突;2) 大型语言模型在事件抽取中存在模式幻觉倾向和上下文窗口限制,影响实际部署效果。在构建过程方面:1) 模式整合的语义消歧,需合并来自不同数据集的近义模式并处理跨语言重复项;2) 数据质量控制的平衡,需保留长文档级查询的复杂性,同时过滤噪声标签(如MAVEN-Arg中单样本超15标签的实例);3) 跨语言对齐的技术难点,需通过翻译和标签调整构建中英文模式互译的子集,要求抽取系统在模式语言与查询语言不一致时仍保持精度。
常用场景
经典使用场景
在自然语言处理领域,MD-SEE数据集作为多维度模式感知事件抽取的基准测试集,其经典使用场景主要体现在跨领域、跨语言和复杂事件结构的联合评估中。该数据集通过整合12个不同领域的子集,支持从句子级到文档级的多粒度文本分析,尤其适用于验证模型在新闻、网络安全、生物医学等垂直领域的模式匹配与事件抽取能力。研究者可基于其300种精细标注的模式,系统评估算法在真实场景下处理模式冲突、语义重叠等核心挑战的表现。
实际应用
在实际应用层面,MD-SEE数据集已被广泛应用于金融舆情监控、跨境安全事件追踪等工业场景。例如在原油市场新闻分析中,基于该数据集训练的模型能自动识别18种原油相关事件模式,准确抽取价格波动、地缘政治影响等关键参数;在网络安全领域,其包含的CASIE子集支持对网络攻击事件的自动化模式识别与参数填充。华为诺亚方舟实验室等机构已将其应用于知识图谱动态构建系统,实现了跨语言事件信息的实时结构化处理。
衍生相关工作
该数据集催生了多个标志性研究成果:ASEE框架首次将模式改写与检索增强生成相结合,在MD-SEE上实现模式匹配准确率提升21.8%;后续研究如SchemaRAG进一步优化了多语言模式检索模块,基于BGE-M3嵌入模型将中文模式检索F1值提高到0.94。在跨语言应用方向,DocEE子集的英汉互译衍生出新型的零样本跨语言事件抽取方法,相关成果被ACL等顶级会议收录。这些工作共同推动了动态模式感知成为事件抽取领域的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作