five

Re-DocRED-CF

收藏
Hugging Face2024-10-15 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/amodaresi/Re-DocRED-CF
下载链接
链接失效反馈
官方服务:
资源简介:
Re-DocRED-CF是一个用于文档级关系抽取的反事实数据集,通过实体替换生成,包含五个反事实变体,每个变体都有训练、开发和测试集,以及一个混合训练集。数据集特征包括文档标题、关系标签、实体顶点集和分词句子,原始文档ID表示示例在原始种子数据集中的索引。
创建时间:
2024-10-14
原始信息汇总

Re-DocRED-CF 数据集概述

数据集描述

Re-DocRED-CF 是一个用于文档级关系抽取(RE)的反事实数据集,通过实体替换生成,旨在评估和解决文档级RE中的事实偏差问题。

数据集结构

数据集包含五个反事实变体,每个变体包含以下文件:

  • train.jsonl
  • dev.jsonl
  • test.jsonl
  • train_mix.jsonl

变体列表

  • var-01
  • var-02
  • var-03
  • var-04
  • var-05
  • var-06
  • var-07
  • var-08
  • var-09

数据格式

每个数据文件包含以下特征:

  • title: 文档标题。
  • labels: 关系列表,每个条目表示头实体和尾实体之间的关系,部分条目还包括证据句子。
  • vertexSet: 实体顶点集列表,每个条目表示文档中所有提及的实体及其类型。
  • sents: 分词后的句子。
  • original_doc_id: 原始种子数据集中的示例索引。

数据集加载

使用 HuggingFace Datasets API 加载特定变体: python dataset = load_dataset("amodaresi/Re-DocRED-CF", "var-01")

引用

如果使用该数据集,请引用以下论文: bibtex @inproceedings{modarressi-covered-2024, title="Consistent Document-Level Relation Extraction via Counterfactuals", author="Ali Modarressi and Abdullatif Köksal and Hinrich Schütze", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2024", address = "Miami, United States", publisher = "Association for Computational Linguistics", }

搜集汇总
数据集介绍
main_image_url
构建方式
Re-DocRED-CF数据集的构建基于CovEReD框架,该框架通过实体替换生成反事实文档,旨在解决文档级关系抽取模型在真实数据上训练时存在的事实偏差问题。数据集以Re-DocRED为种子数据集,生成了五种反事实变体,每种变体均包含训练集、开发集和测试集。此外,还提供了混合训练集,将原始训练集与其反事实变体相结合,以增强模型的鲁棒性。
特点
Re-DocRED-CF数据集的特点在于其反事实生成机制,通过实体替换生成多样化的文档变体,有效模拟了真实场景中的关系抽取挑战。数据集保留了原始DocRED和Re-DocRED的结构化特征,包括文档标题、关系标签、实体顶点集和分词后的句子。反事实生成的文档标题中标注了变体编号,便于追踪其来源。数据集还提供了原始文档的索引信息,便于与种子数据集进行对比分析。
使用方法
使用Re-DocRED-CF数据集时,可通过HuggingFace Datasets API加载特定变体,如`var-01`。加载后的数据集包含训练集、开发集、测试集和混合训练集,每部分均包含文档标题、关系标签、实体顶点集和分词后的句子等特征。混合训练集结合了原始训练集及其反事实变体,可用于训练更具鲁棒性的关系抽取模型。此外,数据集还提供了四种额外的训练集变体,尽管这些变体未在论文评估中使用,但可为研究提供更多实验选择。
背景与挑战
背景概述
Re-DocRED-CF数据集是近年来在文档级关系抽取(RE)领域中的一项重要创新。该数据集由Ali Modarressi等人于2024年提出,旨在解决现有关系抽取模型在真实数据上训练时存在的偏见问题。通过引入CovEReD管道,研究人员生成了一系列反事实文档,构建了Re-DocRED-CF数据集,以评估和改进文档级关系抽取的一致性。该数据集基于Re-DocRED数据集,通过实体替换生成多个反事实变体,为研究社区提供了一个全新的评估工具,推动了关系抽取领域的发展。
当前挑战
Re-DocRED-CF数据集在构建和应用过程中面临多重挑战。首先,文档级关系抽取本身具有复杂性,涉及多句子、多实体的关系推理,模型容易受到数据中隐含的偏见影响。其次,生成反事实数据需要确保语义一致性和逻辑合理性,这对数据生成管道的设计提出了极高要求。此外,如何有效评估反事实数据对模型性能的影响,以及如何将反事实数据与真实数据结合使用,也是研究中的关键难题。这些挑战不仅考验了数据集的构建技术,也为未来关系抽取研究提供了新的方向。
常用场景
经典使用场景
Re-DocRED-CF数据集在文档级关系抽取(RE)领域中被广泛用于评估和提升模型的鲁棒性。通过生成反事实文档,该数据集能够帮助研究人员检测模型在处理真实世界数据时可能存在的偏差,从而优化模型的泛化能力。
衍生相关工作
Re-DocRED-CF数据集的发布催生了一系列相关研究,特别是在反事实数据生成和文档级关系抽取模型的优化方面。基于该数据集的研究工作不仅提升了模型的性能,还为其他领域的数据生成和模型评估提供了新的思路和方法。
数据集最近研究
最新研究方向
在文档级关系抽取(RE)领域,Re-DocRED-CF数据集的推出标志着对模型偏见问题的深入探索。通过CovEReD管道生成的对抗性数据,研究者能够评估和解决模型在真实数据训练中存在的偏差问题。这一数据集不仅提供了五种不同的对抗性变体,还结合了原始训练集与对抗性变体的混合版本,为模型鲁棒性测试提供了丰富资源。当前研究热点集中在如何利用这些对抗性数据提升模型在复杂文档环境下的表现,特别是在处理多实体关系和长距离依赖时的准确性。这一方向的研究不仅推动了关系抽取技术的发展,也为自然语言处理领域的模型公平性和一致性提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作