Few-NERD

github2024-02-26 更新2024-05-31 收录

下载链接：

https://github.com/zjunlp/IEDatasetZoo

下载链接

链接失效反馈

官方服务：

资源简介：

一个少样本命名实体识别数据集，包含66种实体类型，共188,200个实例，特征为少样本学习，数据来源于Wikipedia和Wikidata。

A few-shot named entity recognition dataset comprising 66 entity types with a total of 188,200 instances, characterized by few-shot learning, sourced from Wikipedia and Wikidata.

创建时间：

2020-07-01

原始信息汇总

数据集概述

命名实体识别（Named Entity Recognition）

数据集	类型数量	实例数量	特征	来源	资源链接	原始链接
Few-NERD	66	188,200	Few-shot	Wikipedia+Wikidata	url	url

关系抽取（Relation Extraction）

句子级（Sentence-Level）

数据集	关系数量	实例数量	特征	来源	资源链接	原始链接
Fewrel	100	44,800	Supervised	Wikipedia+Wikidata	url	url
TACRED	42	68,120	Supervised	Newswire+web	-	url
Semeval	19	8,000	Supervised	Web	url	url
Wikidata	352	495,883	Distent-supervision	Wikipedia+Wikidata	url	url
NYT10(tsinghua)	53	522,043	Distent-supervision	NYT+Freebase	url	url
NYT10-large(tsinghua)	53	570,088	Distent-supervision	NYT+Freebase	url	url
NYT-Wikidata	100	882,177	Distent-supervision	NYT+Wikidata	url	url
NYT10-29	29	70,339	Distent-supervision	NYT+Freebase	url	url
NYT11-12	12	62,648	DS+supervised	NYT+Freebase	url	url
NYT-manual	24	235,982	Distent-supervision	NYT+Freebase	url	url
NYT-Wiki(zju)	73	1,989,377	Distent-supervision	NYT-Wikipedia-Wikidata	url	url
Wiki-KBP	19	23,784	Distent-supervision	Wikipedia+KBP+Freebase	url	url
PubMed-BioInfer	94	1,580	Distent-supervision	PubMed+NESH	-	url
WebNLG	14	75,325	Supervised	Web	-	url
SKE	50	173,108	Supervised	Web	url	url
KBP37	37	15,916	Supervised	Web	url	url
T-REx	642	6.3M	Distent-supervision	Wikipedia+Wikidata	-	url
Google-RE	5	59,576	Supervised	Wikipedia	-	url
ADE	3	23,516	Supervised	Medical Report	url	url
WebRED	523	107,819	Supervised	World Wide Web	-	url

文档级（Document-Level）

数据集	关系数量	实例数量	特征	来源	资源链接	原始链接
DocRED	3	3,053	Supervised	Wikipedia	-	url
CDR	3	500	Supervised	Medical	-	url
GDA	3	23,353	Supervised	Medical	-	url

事件抽取（Event Extraction）

数据集	实例数量	特征	来源	资源链接	原始链接
ACE05	599	Supervised	Web	-	url
FewEvent(zju)	71,385	Supervised	ACE05+_TAC-KBP17	url	url
CCKS2019_Event	17,815	Supervised	Financial Announcements	url	url
Doc2EDAG	32,040	Supervised	Financial Announcements	url	url
Maven	1,276,000	Supervised	Wikipedia	-	url

搜集汇总

数据集介绍

构建方式

Few-NERD数据集的构建依托于Wikipedia和Wikidata两大知识库，通过精心设计的标注流程，确保了数据的广泛性和准确性。该数据集涵盖了66种实体类型，共计188,200个实例，旨在为少样本学习场景提供丰富的训练和测试资源。构建过程中，研究人员采用了先进的自然语言处理技术，确保每个实例的标注质量，从而为命名实体识别任务提供了坚实的基础。

特点

Few-NERD数据集以其多样化的实体类型和庞大的实例数量著称，特别适用于少样本学习的研究。数据集中包含的实体类型广泛，涵盖了从人名、地名到组织名等多种类别，为模型提供了全面的训练场景。此外，数据集的实例数量庞大，确保了模型在训练过程中能够接触到丰富的语言现象，从而提升其泛化能力。Few-NERD的独特之处在于其专注于少样本学习，为研究者提供了一个挑战性的基准，推动了命名实体识别领域的前沿研究。

使用方法

Few-NERD数据集的使用方法相对直观，研究者可以通过下载提供的压缩包获取完整的数据集。数据集中包含了训练集、验证集和测试集，用户可以根据需要选择相应的数据进行模型训练和评估。在使用过程中，建议研究者首先对数据进行预处理，确保其格式与模型输入要求一致。随后，可以通过加载数据集进行模型训练，利用验证集进行调参，最终在测试集上评估模型性能。Few-NERD数据集的设计旨在为少样本学习提供支持，因此研究者可以尝试不同的少样本学习算法，探索其在命名实体识别任务中的表现。

背景与挑战

背景概述

Few-NERD数据集是信息抽取领域中的一个重要资源，专注于命名实体识别（NER）任务。该数据集由Ning Ding等人于2021年创建，旨在解决少样本学习（Few-shot Learning）在NER中的应用问题。Few-NERD包含了66种实体类型和188,200个实例，数据来源于Wikipedia和Wikidata，具有广泛的应用场景和较高的学术价值。该数据集的推出，为研究者在少样本环境下进行实体识别提供了丰富的实验数据，推动了NER领域的技术进步。

当前挑战

Few-NERD数据集在解决少样本命名实体识别问题时，面临多重挑战。首先，少样本学习要求模型在极少量标注数据的情况下，仍能准确识别新类别的实体，这对模型的泛化能力提出了极高要求。其次，数据集的构建过程中，如何从Wikipedia和Wikidata中提取高质量且多样化的实体实例，确保数据覆盖广泛且具有代表性，是一个复杂且耗时的任务。此外，不同实体类型之间的类别不平衡问题，也增加了模型训练的难度，需要设计有效的算法来处理这一挑战。

常用场景

经典使用场景

Few-NERD数据集在自然语言处理领域中被广泛用于少样本命名实体识别任务。其基于Wikipedia和Wikidata的丰富数据源，提供了66种实体类型和188,200个实例，为研究者提供了一个多样化的实验平台。该数据集特别适用于探索在有限标注数据下如何提升模型性能，尤其是在跨领域和跨语言的实体识别任务中，Few-NERD展现了其独特的优势。

衍生相关工作

Few-NERD数据集催生了一系列经典的研究工作，尤其是在少样本学习和命名实体识别领域。基于该数据集，研究者提出了多种创新的模型和方法，如基于元学习的少样本实体识别模型和基于迁移学习的跨领域实体识别方法。这些工作不仅提升了模型在Few-NERD上的表现，还为其他少样本学习任务提供了新的思路和解决方案，推动了整个领域的发展。

数据集最近研究