FewRel
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/thunlp/FewRel
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由维基百科页面中的文本组成,这些文本已通过将文本与Wikidata三元组自动对齐并针对每个实例进行人工审核来自动标注。该数据集对于每一对实体最多包含一个实例。规模上,它包含了56,000个实例(80个关系,每个关系700个实例,测试集中还有20个额外关系)。这项任务的目的是进行关系提取。
This dataset comprises text sourced from Wikipedia pages, which was automatically annotated through a two-step process: first automatically aligning the text with Wikidata triples, followed by manual review for each individual instance. This dataset includes at most one instance per entity pair. In terms of scale, it contains a total of 56,000 instances: 80 relations with 700 instances each, plus 20 additional relations in the test set. The core task of this dataset is relation extraction.
提供机构:
THUNLP
搜集汇总
数据集介绍

构建方式
FewRel数据集由来自维基百科的70,000个句子构成,覆盖100种关系。构建过程分为两步:首先,通过远程监督方法,利用维基百科语料库与维基数据知识库,将句子与关系对齐,形成候选集。为减少实体对记忆偏差,每种关系仅保留每个唯一实体对的一个实例,并筛选出实例数不少于1000的关系,最终获得122种关系、122,000个实例。其次,通过众包平台邀请受过良好教育的标注者进行人工筛选,每位标注者需判断句子语义是否能唯一推断出给定关系,每个实例至少由两位标注者标注,存在分歧时交由第三位标注者裁决。标注后,保留正例不少于700的关系,并依据自由边际多评估者卡帕系数选取前100种关系,确保数据质量。
特点
FewRel数据集具备大规模与高质量的双重优势,共包含100种关系,每种关系配备700个实例,总计70,000个句子,其规模超越了Omniglot与mini-ImageNet等经典小样本数据集。与已有关系分类数据集如SemEval-2010 Task 8、TACRED等相比,FewRel在关系种类与实例数量上均占据领先地位。该数据集的核心挑战在于同一关系表达的多样性,涵盖简单模式匹配、常识推理、逻辑推理及指代消解等多种推理模式,使得即便是最先进的小样本学习方法,其性能与人类表现之间仍存在显著差距,凸显了该任务的研究难度与价值。
使用方法
FewRel数据集采用N-way K-shot设定进行小样本关系分类任务评估,其中N表示关系类别数,K表示每个关系提供的支持实例数。典型配置包括5-way 1-shot、5-way 5-shot、10-way 1-shot及10-way 5-shot。使用时,将64种关系用于训练,16种用于验证,20种用于测试,确保训练与测试关系互不重叠。模型需从支持集中学习每个关系的原型或元知识,并对查询实例进行分类。评估中可选用卷积神经网络或分段卷积神经网络作为实例编码器,结合微调、k近邻、原型网络、图神经网络、元网络及SNAIL等小样本学习方法进行性能对比。
背景与挑战
背景概述
在自然语言处理领域,关系分类作为信息抽取的核心任务之一,旨在从给定句子中识别两个实体间的语义关系。传统方法依赖大量人工标注数据,但标注成本高昂且难以泛化至长尾关系。为突破这一瓶颈,清华大学人工智能研究所的徐涵、朱浩等研究者于2018年构建了FewRel数据集,该数据集基于维基百科语料和维基数据知识库,通过远程监督初步标注后,经众包人工筛选去噪,最终包含100种关系、7万条句子。FewRel将关系分类问题引入小样本学习框架,为评估模型在极少样本下的泛化能力提供了标准化基准,显著推动了小样本学习在自然语言处理中的系统性研究。
当前挑战
FewRel面临的核心挑战在于小样本关系分类的固有困难:即使最先进的元学习方法(如原型网络)在5-way 1-shot设定下仅达69.20%的准确率,远低于人类92.22%的表现,表明模型难以从极少量实例中捕捉关系语义的多样性。构建过程中,远程监督引入的噪声标注问题尤为棘手,尽管采用至少两名标注者交叉验证并引入第三方仲裁,但不同标注者对关系语义的歧义性判断仍导致部分实例被过滤,最终从122种候选关系中仅保留100种。此外,同一关系在句法表达上的高度异质性(如简单模式匹配、常识推理、逻辑推理等多重推理模式)进一步加剧了分类难度,为模型设计带来了严峻考验。
常用场景
经典使用场景
FewRel数据集作为大规模少样本关系分类的标杆,广泛应用于评估和推动少样本学习算法在自然语言处理领域的性能。研究者通常在此数据集上采用N-way K-shot设置,例如5-way 1-shot或10-way 5-shot,以检验模型在仅有少量标注样本时对未见关系的泛化能力。该数据集包含100个关系类别,每个类别700个实例,其高质量的人工标注确保了评估的可靠性,成为少样本关系分类任务的标准测试平台。
解决学术问题
FewRel解决了传统关系分类模型在长尾关系上性能骤降的学术难题。由于远监督方法常存在噪声标注问题,且多数关系实例稀缺,模型难以泛化。FewRel通过人工筛选消除噪声,并引入少样本学习范式,使模型能在极少训练样本下准确分类新关系。其评估揭示了现有少样本方法(如原型网络、元网络)与人类性能之间的显著差距,推动了元学习、度量学习等方向在NLP中的深入探索。
衍生相关工作
FewRel催生了多项经典衍生工作,包括基于图神经网络的关系分类方法(如GNN)、结合注意力机制的元学习模型(如SNAIL),以及原型网络在文本分类中的改进版本。后续研究还扩展了跨语言少样本关系分类、多模态少样本学习等方向。此外,FewRel 2.0版本进一步引入领域适应和更难样本,持续推动少样本学习在复杂语言理解任务中的前沿进展。
以上内容由遇见数据集搜集并总结生成



