five

Wiki20d

收藏
arXiv2025-07-09 更新2025-07-11 收录
下载链接:
https://github.com/rioma96/SCoRE
下载链接
链接失效反馈
官方服务:
资源简介:
Wiki20d是一个基准数据集,它通过仅使用知识图结构对训练集进行注释,模拟了现实世界的RE条件。该数据集用于评估SCoRE系统的性能,该系统是一种模块化和轻量级的句子级关系抽取工具,能够无缝适应各种预训练语言模型和语料库类型。

Wiki20d is a benchmark dataset that annotates the training set solely using knowledge graph structures to simulate real-world relation extraction (RE) scenarios. This dataset is employed to evaluate the performance of the SCoRE system, a modular and lightweight sentence-level relation extraction tool that can seamlessly adapt to various pre-trained language models and corpus types.
提供机构:
摩德纳和雷焦艾米利亚大学物理、计算机和数学科学系
创建时间:
2025-07-09
原始信息汇总

SCoRE数据集概述

数据集基本信息

  • 名称:SCoRE
  • 官方存储库地址:https://github.com/rioma96/SCoRE

数据集背景

  • 关联论文:SCoRE: Simple Corpus-based Relation Extraction using Supervised Multi-Label Contrastive Learning

数据集用途

  • 用于基于监督多标签对比学习的简单基于语料库的关系抽取任务
搜集汇总
数据集介绍
main_image_url
构建方式
Wiki20d数据集的构建基于知识图谱(KG)与外部文本语料库的远距离监督(DS)对齐方法。具体而言,通过将维基百科文章与Wikidata知识图谱进行关联,自动生成实体对提及的关系标签。训练集仅依赖KG结构进行标注,模拟真实场景中缺乏人工标注数据的情况。在预处理阶段,移除了无明确关系的句子(标记为'NA')及超出预训练语言模型(PLM)上下文窗口的实体提及,确保数据质量与模型兼容性。
使用方法
该数据集专为评估噪声环境下关系抽取系统的鲁棒性设计,支持端到端的多标签分类任务。使用流程包含三个阶段:首先通过PLM(如BERT)单次前向传播编码实体提及对;随后采用监督对比学习框架训练MLP投影层,构建关系感知的嵌入空间;最终基于贝叶斯k近邻分类器实现关系预测。评估时推荐结合传统指标(Micro/Macro-F1)与创新指标CSD(衡量预测关系与KG结构的对齐度)和P@R(推荐系统效用评估),以全面反映模型在真实应用中的表现。
背景与挑战
背景概述
Wiki20d是由意大利摩德纳和雷焦艾米利亚大学的Luca Mariotti、Veronica Guidetti和Federica Mandreoli团队于2025年提出的一个基准数据集,旨在模拟真实世界中的关系抽取(RE)场景。该数据集通过知识图谱(KG)结构自动标注训练集,扩展了Wiki20m数据集,并支持多标签分类任务。Wiki20d的创建是为了解决在低监督环境下,利用外部语料库进行知识图谱丰富化时的噪声标注问题。该数据集在关系抽取领域具有重要影响力,特别是在评估模型在真实条件下的性能时,提供了更接近实际应用场景的测试环境。
当前挑战
Wiki20d面临的挑战主要包括两个方面:1) 领域问题的挑战,即如何在噪声标注的远程监督环境下准确抽取实体间的复杂关系,特别是在多标签分类任务中处理类别不平衡和长尾分布的问题;2) 构建过程中的挑战,包括如何有效利用知识图谱自动生成标注,同时减少标注噪声对模型训练的负面影响,以及如何确保数据集能够真实反映实际应用中的多样性和复杂性。
常用场景
经典使用场景
Wiki20d数据集在知识图谱(KG)丰富化任务中展现了其经典应用场景,特别是在低监督设置下的关系抽取(RE)研究中。该数据集通过模拟真实世界条件,即仅依赖知识图谱结构进行标注,为研究者提供了一个噪声鲁棒性测试平台。其设计支持多标签分类任务,能够有效捕捉实体对之间的复杂关系模式,如医学领域中的'预防'或地理空间中的'位于'等关系。
解决学术问题
Wiki20d解决了关系抽取领域两个关键学术问题:一是缓解了远程监督(DS)标注中固有的噪声问题,通过对比学习和贝叶斯k近邻分类器的结合,显著提升了模型在噪声环境下的鲁棒性;二是填补了评估指标的空白,提出相关性结构距离(CSD)和推荐精度(P@R)等新指标,从知识图谱对齐和推荐系统效用角度完善了RE任务的评估体系。这些创新使得在缺乏高质量人工标注的现实场景中,仍能保持较高的关系抽取性能。
实际应用
在实际应用中,Wiki20d为知识图谱的动态更新提供了高效工具。例如,在医疗知识库构建中,系统可从文献中自动提取'药物-疾病'关系(如'阿司匹林预防心脏病'),大幅降低人工标注成本。其模块化设计支持与不同预训练语言模型(PLM)的无缝集成,使得在能源、金融等垂直领域快速部署成为可能,同时通过避免PLM微调显著降低了计算资源消耗。
数据集最近研究
最新研究方向
近年来,Wiki20d数据集在知识图谱(KG)丰富化和关系抽取(RE)领域引起了广泛关注。该数据集通过模拟真实场景中的远距离监督(DS)标注,为研究低监督环境下的关系抽取提供了重要基准。前沿研究主要集中在多标签对比学习和贝叶斯k近邻(kNN)分类器的结合应用,以提升模型在噪声标注下的鲁棒性。SCoRE框架的提出进一步推动了这一方向的发展,其模块化设计和无需微调的特性使其能够灵活适应不同的预训练语言模型(PLMs)和知识图谱。此外,新提出的评估指标如相关性结构距离(CSD)和精确度@R(P@R)为关系抽取系统的性能评估提供了更全面的视角。这些研究不仅提升了关系抽取的准确性和效率,还为知识图谱的自动化丰富化提供了可行的解决方案。
相关研究论文
  • 1
    SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN摩德纳和雷焦艾米利亚大学物理、计算机和数学科学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作