DocIE@XLLM25 Synthetic Dataset

Name: DocIE@XLLM25 Synthetic Dataset
Creator: ScaDS.AI & TU Dresden, Germany
Published: 2025-07-08 21:55:25
License: 暂无描述

arXiv2025-07-08 更新2025-07-10 收录

下载链接：

https://github.com/nicpopovic/docie-xllm25

下载链接

链接失效反馈

官方服务：

资源简介：

DocIE@XLLM25 Synthetic Dataset 是一个用于文档级别实体和关系抽取的合成数据集，由 ScaDS.AI 和 TU Dresden 的研究团队创建。数据集包含超过 5,000 篇维基百科摘要，其中包含大约 59,000 个实体和 30,000 个关系三元组。数据集的创建过程采用了一个自动化的 LLM 驱动的合成数据生成流程，包括基于 LLM 的标注和基于规则的验证两个阶段。该数据集旨在解决在零样本或少样本设置下文档级别实体和关系抽取任务中高质量标注语料稀缺的问题，并应用于评估和促进少样本和零样本文档级别信息抽取的研究。

提供机构：

ScaDS.AI & TU Dresden, Germany

创建时间：

2025-07-08

搜集汇总

数据集介绍

构建方式

在信息抽取领域，高质量标注数据的稀缺性一直是制约零样本和小样本学习的关键瓶颈。DocIE@XLLM25合成数据集采用了一种创新的两阶段构建方法：首先基于Wikipedia重要文章的摘要文本，利用经过推理优化的DeepSeek-R1-Distill-Qwen2.5-32B语言模型进行零样本标注；随后通过严格的规则验证和模型辅助的关系三元组校验，确保生成的59,000个实体和30,000个关系三元组具有高度一致性。这种全自动流水线特别设计了机器可解析的JSON输出格式，并融入自然语言描述验证机制，有效解决了关系方向性错误等常见问题。

特点

该数据集最显著的特点是实现了零人工干预的大规模知识标注，覆盖Wikipedia 5,014篇摘要文本，包含3,466种实体类型和7,103种关系类型，展现出丰富的语义多样性。其创新性体现在三个方面：采用HTML/XML风格的跨度标注支持标准的实体识别评估；通过实体ID引用机制确保关系抽取的连贯性；特别设计的自然语言描述验证模块显著提升了关系三元组的准确性。数据分布上，生物健康科学（14.8%）、物理科学（11.98%）等学科占比较高，反映了Wikipedia重要文章的知识体系特征。

使用方法

该数据集支持两种主要应用范式：作为独立的基准数据集时，研究者可通过JSON格式的结构化标注评估文档级信息抽取模型的性能；用于上下文学习场景时，建议采用原文描述的检索增强方法——先基于句子嵌入模型all-MiniLM-L6-v2检索最相似的示例文档，再将其作为上下文示例输入推理模型。值得注意的是，实验表明将长文档分割为段落进行分步处理能显著提升模型输出稳定性。数据集特别适用于研究零样本环境下模式约束的实体关系联合抽取，但需注意其基于Wikipedia摘要的文本特性可能限制在某些领域的泛化能力。

背景与挑战

背景概述

DocIE@XLLM25 Synthetic Dataset是由德国ScaDS.AI与德累斯顿工业大学的研究团队于2025年提出的创新性数据集，旨在解决文档级实体与关系抽取任务中高质量标注数据稀缺的核心问题。该数据集基于维基百科重要文章摘要，通过大语言模型驱动的全自动流水线生成，包含5,014篇文档、约59,000个实体和30,000个关系三元组。其创新性体现在将合成数据生成与基于检索的上下文学习相结合，突破了传统依赖人工标注的局限，为零样本和少样本场景下的信息抽取研究提供了重要基准。该成果发表于自然语言处理领域顶级会议，推动了文档级信息抽取技术在医疗、金融等长文本分析场景的应用发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，文档级联合实体与关系抽取存在长距离依赖捕捉困难（如跨段落实体关联）、关系方向性歧义（如主客体易位）等固有难题，即使当前最先进的大语言模型在该任务上的F1值仍低于35%。在构建过程中，研究团队需克服合成数据的质量验证瓶颈，包括通过规则校验解决LLM输出的18.7%语法错误率，设计动态截断策略平衡文本长度与标注完整性，以及建立实体ID一致性检查机制来应对37.2%的初始标注不一致问题。这些挑战凸显了自动化知识抽取系统在精度与可扩展性之间的固有张力。

常用场景

经典使用场景

DocIE@XLLM25合成数据集在自然语言处理领域的信息抽取任务中展现了其独特价值。该数据集通过自动化流程生成高质量的文档级实体和关系标注，特别适用于零样本或少样本场景下的模型评估与训练。研究人员可利用该数据集验证大语言模型在长文档信息抽取任务中的表现，探索上下文学习机制对复杂语义关系的理解能力。

解决学术问题

该数据集有效缓解了文档级信息抽取领域高质量标注数据稀缺的核心问题。通过结合检索式上下文学习与合成数据生成技术，解决了传统方法依赖人工标注导致的成本瓶颈，为研究零样本条件下实体识别与关系抽取的联合建模提供了标准化测试平台。其包含的5,014篇维基百科摘要文档、约59,000个实体和30,000个关系三元组，显著提升了该领域研究的可重复性与对比基准的可靠性。

衍生相关工作

该数据集已衍生出多个重要研究方向，包括基于DeepSeek-R1的推理优化模型架构、SynthIE等合成数据增强技术。相关研究如AutoRE探索了文档级关系抽取的自动化范式，IEPile项目则扩展了模式约束下的信息抽取语料库构建方法。这些工作共同推动了少样本学习在复杂语义理解任务中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集