Re-DocRED-CF

Hugging Face2024-10-15 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/amodaresi/Re-DocRED-CF

下载链接

链接失效反馈

官方服务：

资源简介：

Re-DocRED-CF是一个用于文档级关系抽取的反事实数据集，通过实体替换生成，包含五个反事实变体，每个变体都有训练、开发和测试集，以及一个混合训练集。数据集特征包括文档标题、关系标签、实体顶点集和分词句子，原始文档ID表示示例在原始种子数据集中的索引。

创建时间：

2024-10-14

原始信息汇总

Re-DocRED-CF 数据集概述

数据集描述

Re-DocRED-CF 是一个用于文档级关系抽取（RE）的反事实数据集，通过实体替换生成，旨在评估和解决文档级RE中的事实偏差问题。

数据集结构

数据集包含五个反事实变体，每个变体包含以下文件：

train.jsonl
dev.jsonl
test.jsonl
train_mix.jsonl

变体列表

var-01
var-02
var-03
var-04
var-05
var-06
var-07
var-08
var-09

数据格式

每个数据文件包含以下特征：

title: 文档标题。
labels: 关系列表，每个条目表示头实体和尾实体之间的关系，部分条目还包括证据句子。
vertexSet: 实体顶点集列表，每个条目表示文档中所有提及的实体及其类型。
sents: 分词后的句子。
original_doc_id: 原始种子数据集中的示例索引。

数据集加载

使用 HuggingFace Datasets API 加载特定变体： python dataset = load_dataset("amodaresi/Re-DocRED-CF", "var-01")

引用

如果使用该数据集，请引用以下论文： bibtex @inproceedings{modarressi-covered-2024, title="Consistent Document-Level Relation Extraction via Counterfactuals", author="Ali Modarressi and Abdullatif Köksal and Hinrich Schütze", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2024", address = "Miami, United States", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

Re-DocRED-CF数据集的构建基于CovEReD框架，该框架通过实体替换生成反事实文档，旨在解决文档级关系抽取模型在真实数据上训练时存在的事实偏差问题。数据集以Re-DocRED为种子数据集，生成了五种反事实变体，每种变体均包含训练集、开发集和测试集。此外，还提供了混合训练集，将原始训练集与其反事实变体相结合，以增强模型的鲁棒性。

特点

Re-DocRED-CF数据集的特点在于其反事实生成机制，通过实体替换生成多样化的文档变体，有效模拟了真实场景中的关系抽取挑战。数据集保留了原始DocRED和Re-DocRED的结构化特征，包括文档标题、关系标签、实体顶点集和分词后的句子。反事实生成的文档标题中标注了变体编号，便于追踪其来源。数据集还提供了原始文档的索引信息，便于与种子数据集进行对比分析。

使用方法

使用Re-DocRED-CF数据集时，可通过HuggingFace Datasets API加载特定变体，如`var-01`。加载后的数据集包含训练集、开发集、测试集和混合训练集，每部分均包含文档标题、关系标签、实体顶点集和分词后的句子等特征。混合训练集结合了原始训练集及其反事实变体，可用于训练更具鲁棒性的关系抽取模型。此外，数据集还提供了四种额外的训练集变体，尽管这些变体未在论文评估中使用，但可为研究提供更多实验选择。

背景与挑战

背景概述

Re-DocRED-CF数据集是近年来在文档级关系抽取（RE）领域中的一项重要创新。该数据集由Ali Modarressi等人于2024年提出，旨在解决现有关系抽取模型在真实数据上训练时存在的偏见问题。通过引入CovEReD管道，研究人员生成了一系列反事实文档，构建了Re-DocRED-CF数据集，以评估和改进文档级关系抽取的一致性。该数据集基于Re-DocRED数据集，通过实体替换生成多个反事实变体，为研究社区提供了一个全新的评估工具，推动了关系抽取领域的发展。

当前挑战

Re-DocRED-CF数据集在构建和应用过程中面临多重挑战。首先，文档级关系抽取本身具有复杂性，涉及多句子、多实体的关系推理，模型容易受到数据中隐含的偏见影响。其次，生成反事实数据需要确保语义一致性和逻辑合理性，这对数据生成管道的设计提出了极高要求。此外，如何有效评估反事实数据对模型性能的影响，以及如何将反事实数据与真实数据结合使用，也是研究中的关键难题。这些挑战不仅考验了数据集的构建技术，也为未来关系抽取研究提供了新的方向。

常用场景

经典使用场景

Re-DocRED-CF数据集在文档级关系抽取（RE）领域中被广泛用于评估和提升模型的鲁棒性。通过生成反事实文档，该数据集能够帮助研究人员检测模型在处理真实世界数据时可能存在的偏差，从而优化模型的泛化能力。

衍生相关工作

Re-DocRED-CF数据集的发布催生了一系列相关研究，特别是在反事实数据生成和文档级关系抽取模型的优化方面。基于该数据集的研究工作不仅提升了模型的性能，还为其他领域的数据生成和模型评估提供了新的思路和方法。

数据集最近研究