B2NERD

github2024-06-18 更新2024-06-19 收录

下载链接：

https://github.com/UmeanNever/B2NER

下载链接

链接失效反馈

官方服务：

资源简介：

B2NERD数据集是一个精炼自54个中文和英文数据集的集合，专门设计用于开放命名实体识别模型的训练。该数据集包含约52,000个样本，具有标准化的实体定义，并经过数据选择和修剪，适合用于域外/零样本NER模型训练。

The B2NERD dataset is a refined collection derived from 54 Chinese and English datasets, specifically designed for training open-domain named entity recognition (NER) models. It comprises approximately 52,000 samples with standardized entity definitions, and has undergone data selection and pruning, making it suitable for out-of-domain/zero-shot NER model training.

创建时间：

2024-06-15

原始信息汇总

数据集概述

数据集名称

B2NERD

数据集描述

B2NERD是一个为开放命名实体识别（Open NER）模型训练设计的综合数据集，由54个英语和中文数据集精炼而成。该数据集旨在提高大型语言模型（LLMs）在开放NER任务上的泛化能力。

数据集版本

B2NERD: 包含约52,000个样本，适用于域外/零样本NER模型训练。
B2NERD_all: 包含约140万个样本，适用于域内监督评估。
B2NERD_raw: 原始收集的数据集，未经进一步标准化处理。

数据集用途

用于训练和评估开放命名实体识别模型。
支持域外/零样本NER模型训练和域内监督评估。

数据集下载

数据集可通过以下链接下载：B2NERD数据集下载

数据集发布日期

论文和数据集发布日期：2023年6月18日
代码和模型发布计划：2023年7月2日

搜集汇总

数据集介绍

构建方式

B2NERD数据集的构建基于54个现有的中英文数据集，经过精心筛选和处理，形成了一个高效且连贯的集合。该数据集旨在提升大型语言模型在开放命名实体识别（Open NER）任务中的泛化能力。构建过程中，数据集不仅标准化了实体定义，还进行了数据修剪和多样化处理，确保了数据的高质量和适用性。

特点

B2NERD数据集具有多个显著特点。首先，它是目前最大的双语NER数据集集合，经过精细处理，适合训练开放NER模型。其次，该数据集通过轻量级的LoRA适配器，实现了在多个基准测试中的最先进（SoTA）表现。此外，B2NERD使用简单的自然语言格式提示，推理速度比使用复杂提示的先前SoTA方法快4倍。最后，数据集提供了一个通用的实体分类法，指导新实体的定义和标签命名。

使用方法

B2NERD数据集的使用方法简便且灵活。用户可以从HuggingFace或Google Drive下载数据集，并根据需要选择不同版本（推荐版本、全数据版本或原始版本）。数据集支持快速演示和批量推理，用户可以通过下载预训练的LoRA适配器和相应的骨干模型，按照提供的代码示例进行快速演示。此外，数据集还支持自定义训练和评估，用户可以根据需求调整训练脚本中的路径和参数，进行模型训练和结果评估。

背景与挑战

背景概述

B2NERD数据集是由UmeanNever团队于2024年创建，旨在解决开放命名实体识别（Open Named Entity Recognition, Open NER）任务中的泛化问题。该数据集从54个现有的中英文数据集中精炼而成，包含约52,000个样本，适用于跨领域和零样本的NER模型训练。B2NERD不仅提供了标准化的实体定义和多样化的数据，还引入了通用实体分类法，以指导新实体的定义和标签命名。该数据集的核心研究问题是如何在多语言和多数据集背景下，构建一个高效的通用实体分类系统，以提升大型语言模型（LLMs）在NER任务中的表现。B2NERD的发布对自然语言处理领域具有重要影响，特别是在跨语言和跨领域的NER任务中，其表现显著优于GPT-4等现有方法。

当前挑战

B2NERD数据集在构建过程中面临多项挑战。首先，如何从54个不同来源的数据集中筛选和整合数据，确保数据的一致性和多样性，是一个复杂的过程。其次，开放命名实体识别任务本身具有高度不确定性，如何定义和标准化新实体的标签是一个持续的挑战。此外，跨语言和跨领域的泛化能力要求模型具备强大的适应性和鲁棒性，这对模型的设计和训练提出了更高的要求。最后，尽管B2NERD在多个基准测试中表现优异，但其轻量级的LoRA适配器在实际应用中的稳定性和兼容性仍需进一步验证。

常用场景

经典使用场景

B2NERD数据集在开放命名实体识别（Open NER）任务中展现了其经典应用场景。该数据集通过整合54个现有的中英文数据集，为训练通用实体分类模型提供了丰富的资源。其核心应用在于提升大型语言模型（LLMs）在开放域NER任务中的泛化能力，特别是在跨语言和跨数据集的评估中表现出色。B2NERD不仅支持零样本学习，还能通过轻量级的LoRA适配器实现快速推理，显著提高了模型在多语言环境下的性能。

解决学术问题

B2NERD数据集解决了开放命名实体识别（Open NER）领域中的多个学术研究问题。首先，它通过构建一个统一的实体分类体系，解决了不同数据集和语言间实体标签不一致的问题。其次，该数据集通过精心筛选和标准化处理，有效提升了模型在跨域（Out-of-Domain, OOD）评估中的表现，填补了现有方法在多语言和多数据集上的性能差距。此外，B2NERD的推出为研究者提供了一个标准化的评估平台，推动了NER技术在实际应用中的进一步发展。

衍生相关工作

B2NERD数据集的推出催生了多项相关研究工作。首先，基于B2NERD的训练模型在多个NER基准测试中取得了领先的成绩，推动了开放域NER技术的发展。其次，B2NERD的标准化实体分类体系为后续研究提供了参考，促进了实体识别技术在多语言环境下的应用。此外，B2NERD的轻量级LoRA适配器为模型压缩和快速部署提供了新的思路，激发了更多关于模型优化和加速的研究。总体而言，B2NERD不仅提升了现有技术的性能，还为未来的研究方向提供了新的启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集