Wiki20d

Name: Wiki20d
Creator: 摩德纳和雷焦艾米利亚大学物理、计算机和数学科学系
Published: 2025-07-09 22:33:07
License: 暂无描述

arXiv2025-07-09 更新2025-07-11 收录

下载链接：

https://github.com/rioma96/SCoRE

下载链接

链接失效反馈

官方服务：

资源简介：

Wiki20d是一个基准数据集，它通过仅使用知识图结构对训练集进行注释，模拟了现实世界的RE条件。该数据集用于评估SCoRE系统的性能，该系统是一种模块化和轻量级的句子级关系抽取工具，能够无缝适应各种预训练语言模型和语料库类型。

Wiki20d is a benchmark dataset that annotates the training set solely using knowledge graph structures to simulate real-world relation extraction (RE) scenarios. This dataset is employed to evaluate the performance of the SCoRE system, a modular and lightweight sentence-level relation extraction tool that can seamlessly adapt to various pre-trained language models and corpus types.

提供机构：

摩德纳和雷焦艾米利亚大学物理、计算机和数学科学系

创建时间：

2025-07-09

原始信息汇总

SCoRE数据集概述

数据集基本信息

名称：SCoRE
官方存储库地址：https://github.com/rioma96/SCoRE

数据集背景

关联论文：SCoRE: Simple Corpus-based Relation Extraction using Supervised Multi-Label Contrastive Learning

数据集用途

用于基于监督多标签对比学习的简单基于语料库的关系抽取任务

搜集汇总

数据集介绍

构建方式

Wiki20d数据集的构建基于知识图谱（KG）与外部文本语料库的远距离监督（DS）对齐方法。具体而言，通过将维基百科文章与Wikidata知识图谱进行关联，自动生成实体对提及的关系标签。训练集仅依赖KG结构进行标注，模拟真实场景中缺乏人工标注数据的情况。在预处理阶段，移除了无明确关系的句子（标记为'NA'）及超出预训练语言模型（PLM）上下文窗口的实体提及，确保数据质量与模型兼容性。

使用方法

该数据集专为评估噪声环境下关系抽取系统的鲁棒性设计，支持端到端的多标签分类任务。使用流程包含三个阶段：首先通过PLM（如BERT）单次前向传播编码实体提及对；随后采用监督对比学习框架训练MLP投影层，构建关系感知的嵌入空间；最终基于贝叶斯k近邻分类器实现关系预测。评估时推荐结合传统指标（Micro/Macro-F1）与创新指标CSD（衡量预测关系与KG结构的对齐度）和P@R（推荐系统效用评估），以全面反映模型在真实应用中的表现。

背景与挑战

背景概述

Wiki20d是由意大利摩德纳和雷焦艾米利亚大学的Luca Mariotti、Veronica Guidetti和Federica Mandreoli团队于2025年提出的一个基准数据集，旨在模拟真实世界中的关系抽取（RE）场景。该数据集通过知识图谱（KG）结构自动标注训练集，扩展了Wiki20m数据集，并支持多标签分类任务。Wiki20d的创建是为了解决在低监督环境下，利用外部语料库进行知识图谱丰富化时的噪声标注问题。该数据集在关系抽取领域具有重要影响力，特别是在评估模型在真实条件下的性能时，提供了更接近实际应用场景的测试环境。

当前挑战

Wiki20d面临的挑战主要包括两个方面：1) 领域问题的挑战，即如何在噪声标注的远程监督环境下准确抽取实体间的复杂关系，特别是在多标签分类任务中处理类别不平衡和长尾分布的问题；2) 构建过程中的挑战，包括如何有效利用知识图谱自动生成标注，同时减少标注噪声对模型训练的负面影响，以及如何确保数据集能够真实反映实际应用中的多样性和复杂性。

常用场景

经典使用场景

Wiki20d数据集在知识图谱（KG）丰富化任务中展现了其经典应用场景，特别是在低监督设置下的关系抽取（RE）研究中。该数据集通过模拟真实世界条件，即仅依赖知识图谱结构进行标注，为研究者提供了一个噪声鲁棒性测试平台。其设计支持多标签分类任务，能够有效捕捉实体对之间的复杂关系模式，如医学领域中的'预防'或地理空间中的'位于'等关系。

解决学术问题

Wiki20d解决了关系抽取领域两个关键学术问题：一是缓解了远程监督（DS）标注中固有的噪声问题，通过对比学习和贝叶斯k近邻分类器的结合，显著提升了模型在噪声环境下的鲁棒性；二是填补了评估指标的空白，提出相关性结构距离（CSD）和推荐精度（P@R）等新指标，从知识图谱对齐和推荐系统效用角度完善了RE任务的评估体系。这些创新使得在缺乏高质量人工标注的现实场景中，仍能保持较高的关系抽取性能。

实际应用

在实际应用中，Wiki20d为知识图谱的动态更新提供了高效工具。例如，在医疗知识库构建中，系统可从文献中自动提取'药物-疾病'关系（如'阿司匹林预防心脏病'），大幅降低人工标注成本。其模块化设计支持与不同预训练语言模型（PLM）的无缝集成，使得在能源、金融等垂直领域快速部署成为可能，同时通过避免PLM微调显著降低了计算资源消耗。

数据集最近研究