Few-NERD
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Few-NERD
下载链接
链接失效反馈官方服务:
资源简介:
Few-NERD 是一个大规模、细粒度的手动注释命名实体识别数据集,包含 8 个粗粒度类型、66 个细粒度类型、188,200 个句子、491,711 个实体和 4,601,223 个令牌。构建了三个基准任务,一个是有监督的(Few-NERD (SUP)),另外两个是少样本的(Few-NERD (INTRA) 和 Few-NERD (INTER))。
Few-NERD is a large-scale, fine-grained manually annotated named entity recognition dataset, which contains 8 coarse-grained entity types, 66 fine-grained entity types, 188,200 sentences, 491,711 entities, and 4,601,223 tokens. Three benchmark tasks are constructed: one is the supervised setting (Few-NERD (SUP)), and the other two are few-shot settings (Few-NERD (INTRA) and Few-NERD (INTER)).
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

构建方式
Few-NERD数据集的构建基于大规模的众包标注,旨在解决命名实体识别(NER)任务中标注数据稀缺的问题。该数据集从多个领域中抽取文本,涵盖了8个主要实体类别和66个子类别,确保了数据的多样性和覆盖面。通过精心设计的标注流程和质量控制机制,确保了标注的一致性和准确性,从而为少样本学习提供了高质量的训练数据。
特点
Few-NERD数据集的显著特点在于其针对少样本学习场景的优化设计。数据集不仅包含了丰富的实体类别和子类别,还通过平衡各类别的样本数量,避免了数据偏斜问题。此外,数据集引入了跨领域的文本数据,增强了模型的泛化能力。其高质量的标注和多样化的数据来源,使得Few-NERD成为研究少样本命名实体识别的理想选择。
使用方法
Few-NERD数据集适用于多种命名实体识别任务,尤其适合于少样本学习算法的开发与评估。研究者可以通过该数据集训练和测试模型,探索在有限标注数据下的识别性能。数据集的结构化格式和详细的标注指南,使得数据预处理和模型训练过程更为便捷。此外,Few-NERD还提供了基准测试结果,为研究者提供了对比和参考的依据。
背景与挑战
背景概述
Few-NERD数据集由北京大学和微软亚洲研究院于2021年联合发布,旨在解决命名实体识别(NER)领域中标注数据稀缺的问题。该数据集包含了超过80万个实体和18个实体类别,涵盖了广泛的自然语言处理任务。Few-NERD的构建基于大量未标注文本,通过半监督学习和数据增强技术生成,显著提升了NER模型在低资源环境下的性能。这一贡献不仅推动了NER技术的发展,也为其他自然语言处理任务提供了宝贵的数据资源。
当前挑战
Few-NERD数据集在构建过程中面临多重挑战。首先,实体类别多样性和数据分布不均导致模型训练难度增加。其次,半监督学习和数据增强技术的应用需要精确的算法设计和大量的计算资源。此外,数据集的标注质量直接影响模型性能,确保标注一致性和准确性是一大难题。最后,如何在实际应用中有效利用Few-NERD数据集,以提升NER系统的泛化能力和鲁棒性,仍是当前研究的重点。
发展历史
创建时间与更新
Few-NERD数据集由北京大学和微软亚洲研究院于2021年联合发布,旨在解决命名实体识别(NER)任务中的数据稀缺问题。该数据集的最新版本于2022年进行了更新,增加了更多的标注实例和领域覆盖。
重要里程碑
Few-NERD数据集的发布标志着在命名实体识别领域中,针对小样本学习问题的研究进入了一个新的阶段。其独特之处在于包含了超过800个实体类别,远超传统NER数据集的类别数量,为研究者提供了丰富的实验资源。此外,数据集中的实例分布广泛,涵盖了多个领域,如科学、技术、医学等,极大地推动了跨领域NER模型的研究与应用。
当前发展情况
目前,Few-NERD数据集已成为小样本命名实体识别研究的重要基准。其广泛的应用不仅促进了算法在数据稀缺环境下的性能提升,还激发了多任务学习和迁移学习在NER领域的创新。研究者们利用该数据集开发了多种先进的模型,显著提高了实体识别的准确性和鲁棒性。此外,Few-NERD的开放性和多样性也吸引了全球范围内的研究团队参与,共同推动了命名实体识别技术的进步。
发展历程
- Few-NERD数据集首次发表,由北京大学和微软亚洲研究院联合发布,旨在解决少样本命名实体识别问题。
- Few-NERD数据集首次应用于学术研究,成为少样本学习领域的重要基准数据集。
常用场景
经典使用场景
Few-NERD数据集在自然语言处理领域中,主要用于命名实体识别(NER)任务的少样本学习场景。该数据集通过提供大量细粒度实体类别,使得研究者能够在有限的标注数据下,探索和验证少样本学习算法在NER任务中的表现。其经典使用场景包括但不限于:在医疗、法律等专业领域中,利用Few-NERD进行实体识别模型的训练与评估,以应对特定领域数据稀缺的问题。
衍生相关工作
Few-NERD数据集的发布,催生了一系列围绕少样本学习和命名实体识别的研究工作。例如,研究者们提出了基于元学习的少样本NER模型,通过在Few-NERD上进行训练,显著提升了模型在少样本情况下的识别性能。此外,还有工作探讨了如何利用Few-NERD进行跨领域知识迁移,以增强模型在不同领域中的泛化能力。这些衍生工作不仅丰富了NER领域的研究内容,也为实际应用提供了强有力的技术支持。
数据集最近研究
最新研究方向
在自然语言处理领域,Few-NERD数据集因其专注于少样本命名实体识别(NER)而备受关注。最新研究方向主要集中在利用元学习、迁移学习和数据增强技术,以解决少样本场景下的实体识别问题。这些方法旨在通过有限的标注数据,提升模型在特定领域或新类别上的识别性能。相关研究不仅推动了NER技术在实际应用中的灵活性和适应性,还为跨领域知识迁移提供了新的思路。此外,Few-NERD数据集的研究成果在医疗、金融等需要高度专业化的领域具有重要应用价值,预示着未来NER技术在这些领域的发展潜力。
相关研究论文
- 1Few-NERD: A Few-Shot Named Entity Recognition DatasetTsinghua University, University of Washington · 2021年
- 2Exploring the Limits of Transfer Learning with a Unified Text-to-Text TransformerGoogle Research, Carnegie Mellon University · 2020年
- 3BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingGoogle AI Language · 2019年
- 4SpanBERT: Improving Pre-training by Representing and Predicting SpansFacebook AI Research, University of Washington · 2020年
- 5Few-Shot Named Entity Recognition: A Comprehensive StudyUniversity of Amsterdam, University of Cambridge · 2022年
以上内容由遇见数据集搜集并总结生成



