Few-NERD
收藏github2024-02-26 更新2024-05-31 收录
下载链接:
https://github.com/zjunlp/IEDatasetZoo
下载链接
链接失效反馈官方服务:
资源简介:
一个少样本命名实体识别数据集,包含66种实体类型,共188,200个实例,特征为少样本学习,数据来源于Wikipedia和Wikidata。
A few-shot named entity recognition dataset comprising 66 entity types with a total of 188,200 instances, characterized by few-shot learning, sourced from Wikipedia and Wikidata.
创建时间:
2020-07-01
原始信息汇总
数据集概述
命名实体识别(Named Entity Recognition)
关系抽取(Relation Extraction)
句子级(Sentence-Level)
| 数据集 | 关系数量 | 实例数量 | 特征 | 来源 | 资源链接 | 原始链接 |
|---|---|---|---|---|---|---|
| Fewrel | 100 | 44,800 | Supervised | Wikipedia+Wikidata | url | url |
| TACRED | 42 | 68,120 | Supervised | Newswire+web | - | url |
| Semeval | 19 | 8,000 | Supervised | Web | url | url |
| Wikidata | 352 | 495,883 | Distent-supervision | Wikipedia+Wikidata | url | url |
| NYT10(tsinghua) | 53 | 522,043 | Distent-supervision | NYT+Freebase | url | url |
| NYT10-large(tsinghua) | 53 | 570,088 | Distent-supervision | NYT+Freebase | url | url |
| NYT-Wikidata | 100 | 882,177 | Distent-supervision | NYT+Wikidata | url | url |
| NYT10-29 | 29 | 70,339 | Distent-supervision | NYT+Freebase | url | url |
| NYT11-12 | 12 | 62,648 | DS+supervised | NYT+Freebase | url | url |
| NYT-manual | 24 | 235,982 | Distent-supervision | NYT+Freebase | url | url |
| NYT-Wiki(zju) | 73 | 1,989,377 | Distent-supervision | NYT-Wikipedia-Wikidata | url | url |
| Wiki-KBP | 19 | 23,784 | Distent-supervision | Wikipedia+KBP+Freebase | url | url |
| PubMed-BioInfer | 94 | 1,580 | Distent-supervision | PubMed+NESH | - | url |
| WebNLG | 14 | 75,325 | Supervised | Web | - | url |
| SKE | 50 | 173,108 | Supervised | Web | url | url |
| KBP37 | 37 | 15,916 | Supervised | Web | url | url |
| T-REx | 642 | 6.3M | Distent-supervision | Wikipedia+Wikidata | - | url |
| Google-RE | 5 | 59,576 | Supervised | Wikipedia | - | url |
| ADE | 3 | 23,516 | Supervised | Medical Report | url | url |
| WebRED | 523 | 107,819 | Supervised | World Wide Web | - | url |
文档级(Document-Level)
| 数据集 | 关系数量 | 实例数量 | 特征 | 来源 | 资源链接 | 原始链接 |
|---|---|---|---|---|---|---|
| DocRED | 3 | 3,053 | Supervised | Wikipedia | - | url |
| CDR | 3 | 500 | Supervised | Medical | - | url |
| GDA | 3 | 23,353 | Supervised | Medical | - | url |
事件抽取(Event Extraction)
搜集汇总
数据集介绍

构建方式
Few-NERD数据集的构建依托于Wikipedia和Wikidata两大知识库,通过精心设计的标注流程,确保了数据的广泛性和准确性。该数据集涵盖了66种实体类型,共计188,200个实例,旨在为少样本学习场景提供丰富的训练和测试资源。构建过程中,研究人员采用了先进的自然语言处理技术,确保每个实例的标注质量,从而为命名实体识别任务提供了坚实的基础。
特点
Few-NERD数据集以其多样化的实体类型和庞大的实例数量著称,特别适用于少样本学习的研究。数据集中包含的实体类型广泛,涵盖了从人名、地名到组织名等多种类别,为模型提供了全面的训练场景。此外,数据集的实例数量庞大,确保了模型在训练过程中能够接触到丰富的语言现象,从而提升其泛化能力。Few-NERD的独特之处在于其专注于少样本学习,为研究者提供了一个挑战性的基准,推动了命名实体识别领域的前沿研究。
使用方法
Few-NERD数据集的使用方法相对直观,研究者可以通过下载提供的压缩包获取完整的数据集。数据集中包含了训练集、验证集和测试集,用户可以根据需要选择相应的数据进行模型训练和评估。在使用过程中,建议研究者首先对数据进行预处理,确保其格式与模型输入要求一致。随后,可以通过加载数据集进行模型训练,利用验证集进行调参,最终在测试集上评估模型性能。Few-NERD数据集的设计旨在为少样本学习提供支持,因此研究者可以尝试不同的少样本学习算法,探索其在命名实体识别任务中的表现。
背景与挑战
背景概述
Few-NERD数据集是信息抽取领域中的一个重要资源,专注于命名实体识别(NER)任务。该数据集由Ning Ding等人于2021年创建,旨在解决少样本学习(Few-shot Learning)在NER中的应用问题。Few-NERD包含了66种实体类型和188,200个实例,数据来源于Wikipedia和Wikidata,具有广泛的应用场景和较高的学术价值。该数据集的推出,为研究者在少样本环境下进行实体识别提供了丰富的实验数据,推动了NER领域的技术进步。
当前挑战
Few-NERD数据集在解决少样本命名实体识别问题时,面临多重挑战。首先,少样本学习要求模型在极少量标注数据的情况下,仍能准确识别新类别的实体,这对模型的泛化能力提出了极高要求。其次,数据集的构建过程中,如何从Wikipedia和Wikidata中提取高质量且多样化的实体实例,确保数据覆盖广泛且具有代表性,是一个复杂且耗时的任务。此外,不同实体类型之间的类别不平衡问题,也增加了模型训练的难度,需要设计有效的算法来处理这一挑战。
常用场景
经典使用场景
Few-NERD数据集在自然语言处理领域中被广泛用于少样本命名实体识别任务。其基于Wikipedia和Wikidata的丰富数据源,提供了66种实体类型和188,200个实例,为研究者提供了一个多样化的实验平台。该数据集特别适用于探索在有限标注数据下如何提升模型性能,尤其是在跨领域和跨语言的实体识别任务中,Few-NERD展现了其独特的优势。
衍生相关工作
Few-NERD数据集催生了一系列经典的研究工作,尤其是在少样本学习和命名实体识别领域。基于该数据集,研究者提出了多种创新的模型和方法,如基于元学习的少样本实体识别模型和基于迁移学习的跨领域实体识别方法。这些工作不仅提升了模型在Few-NERD上的表现,还为其他少样本学习任务提供了新的思路和解决方案,推动了整个领域的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,Few-NERD数据集因其独特的少样本学习特性而备受关注。该数据集包含66种实体类型和188,200个实例,源自Wikipedia和Wikidata,为研究者提供了一个丰富的资源来探索命名实体识别(NER)任务中的少样本学习问题。近年来,随着深度学习技术的快速发展,Few-NERD数据集在少样本学习、迁移学习以及跨领域实体识别等前沿研究方向中发挥了重要作用。特别是在低资源语言和特定领域实体识别任务中,Few-NERD数据集的应用显著提升了模型的泛化能力和识别精度。此外,该数据集还为研究者提供了一个标准化的评估平台,推动了NER技术在信息抽取、知识图谱构建等领域的广泛应用。
以上内容由遇见数据集搜集并总结生成



