five

B2NERD

收藏
github2024-06-18 更新2024-06-19 收录
下载链接:
https://github.com/UmeanNever/B2NER
下载链接
链接失效反馈
官方服务:
资源简介:
B2NERD数据集是一个精炼自54个中文和英文数据集的集合,专门设计用于开放命名实体识别模型的训练。该数据集包含约52,000个样本,具有标准化的实体定义,并经过数据选择和修剪,适合用于域外/零样本NER模型训练。

The B2NERD dataset is a refined collection derived from 54 Chinese and English datasets, specifically designed for training open-domain named entity recognition (NER) models. It comprises approximately 52,000 samples with standardized entity definitions, and has undergone data selection and pruning, making it suitable for out-of-domain/zero-shot NER model training.
创建时间:
2024-06-15
原始信息汇总

数据集概述

数据集名称

B2NERD

数据集描述

B2NERD是一个为开放命名实体识别(Open NER)模型训练设计的综合数据集,由54个英语和中文数据集精炼而成。该数据集旨在提高大型语言模型(LLMs)在开放NER任务上的泛化能力。

数据集版本

  • B2NERD: 包含约52,000个样本,适用于域外/零样本NER模型训练。
  • B2NERD_all: 包含约140万个样本,适用于域内监督评估。
  • B2NERD_raw: 原始收集的数据集,未经进一步标准化处理。

数据集用途

  • 用于训练和评估开放命名实体识别模型。
  • 支持域外/零样本NER模型训练和域内监督评估。

数据集下载

数据集可通过以下链接下载:B2NERD数据集下载

数据集发布日期

  • 论文和数据集发布日期:2023年6月18日
  • 代码和模型发布计划:2023年7月2日
搜集汇总
数据集介绍
main_image_url
构建方式
B2NERD数据集的构建基于54个现有的中英文数据集,经过精心筛选和处理,形成了一个高效且连贯的集合。该数据集旨在提升大型语言模型在开放命名实体识别(Open NER)任务中的泛化能力。构建过程中,数据集不仅标准化了实体定义,还进行了数据修剪和多样化处理,确保了数据的高质量和适用性。
特点
B2NERD数据集具有多个显著特点。首先,它是目前最大的双语NER数据集集合,经过精细处理,适合训练开放NER模型。其次,该数据集通过轻量级的LoRA适配器,实现了在多个基准测试中的最先进(SoTA)表现。此外,B2NERD使用简单的自然语言格式提示,推理速度比使用复杂提示的先前SoTA方法快4倍。最后,数据集提供了一个通用的实体分类法,指导新实体的定义和标签命名。
使用方法
B2NERD数据集的使用方法简便且灵活。用户可以从HuggingFace或Google Drive下载数据集,并根据需要选择不同版本(推荐版本、全数据版本或原始版本)。数据集支持快速演示和批量推理,用户可以通过下载预训练的LoRA适配器和相应的骨干模型,按照提供的代码示例进行快速演示。此外,数据集还支持自定义训练和评估,用户可以根据需求调整训练脚本中的路径和参数,进行模型训练和结果评估。
背景与挑战
背景概述
B2NERD数据集是由UmeanNever团队于2024年创建,旨在解决开放命名实体识别(Open Named Entity Recognition, Open NER)任务中的泛化问题。该数据集从54个现有的中英文数据集中精炼而成,包含约52,000个样本,适用于跨领域和零样本的NER模型训练。B2NERD不仅提供了标准化的实体定义和多样化的数据,还引入了通用实体分类法,以指导新实体的定义和标签命名。该数据集的核心研究问题是如何在多语言和多数据集背景下,构建一个高效的通用实体分类系统,以提升大型语言模型(LLMs)在NER任务中的表现。B2NERD的发布对自然语言处理领域具有重要影响,特别是在跨语言和跨领域的NER任务中,其表现显著优于GPT-4等现有方法。
当前挑战
B2NERD数据集在构建过程中面临多项挑战。首先,如何从54个不同来源的数据集中筛选和整合数据,确保数据的一致性和多样性,是一个复杂的过程。其次,开放命名实体识别任务本身具有高度不确定性,如何定义和标准化新实体的标签是一个持续的挑战。此外,跨语言和跨领域的泛化能力要求模型具备强大的适应性和鲁棒性,这对模型的设计和训练提出了更高的要求。最后,尽管B2NERD在多个基准测试中表现优异,但其轻量级的LoRA适配器在实际应用中的稳定性和兼容性仍需进一步验证。
常用场景
经典使用场景
B2NERD数据集在开放命名实体识别(Open NER)任务中展现了其经典应用场景。该数据集通过整合54个现有的中英文数据集,为训练通用实体分类模型提供了丰富的资源。其核心应用在于提升大型语言模型(LLMs)在开放域NER任务中的泛化能力,特别是在跨语言和跨数据集的评估中表现出色。B2NERD不仅支持零样本学习,还能通过轻量级的LoRA适配器实现快速推理,显著提高了模型在多语言环境下的性能。
解决学术问题
B2NERD数据集解决了开放命名实体识别(Open NER)领域中的多个学术研究问题。首先,它通过构建一个统一的实体分类体系,解决了不同数据集和语言间实体标签不一致的问题。其次,该数据集通过精心筛选和标准化处理,有效提升了模型在跨域(Out-of-Domain, OOD)评估中的表现,填补了现有方法在多语言和多数据集上的性能差距。此外,B2NERD的推出为研究者提供了一个标准化的评估平台,推动了NER技术在实际应用中的进一步发展。
衍生相关工作
B2NERD数据集的推出催生了多项相关研究工作。首先,基于B2NERD的训练模型在多个NER基准测试中取得了领先的成绩,推动了开放域NER技术的发展。其次,B2NERD的标准化实体分类体系为后续研究提供了参考,促进了实体识别技术在多语言环境下的应用。此外,B2NERD的轻量级LoRA适配器为模型压缩和快速部署提供了新的思路,激发了更多关于模型优化和加速的研究。总体而言,B2NERD不仅提升了现有技术的性能,还为未来的研究方向提供了新的启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作