Umean/B2NERD
收藏Hugging Face2024-07-06 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Umean/B2NERD
下载链接
链接失效反馈官方服务:
资源简介:
B2NERD是一个从54个现有的英文和中文数据集中提炼出来的高效数据集,旨在提高大型语言模型在开放命名实体识别(Open NER)任务中的泛化能力。数据集提供了三个版本:B2NERD(推荐版本)、B2NERD_all和B2NERD_raw,分别适用于不同的训练和评估场景。B2NERD版本包含约52,000个样本,适用于跨领域/零样本NER模型训练;B2NERD_all版本包含约1.4百万个样本,适用于领域内监督评估;B2NERD_raw版本是原始收集的数据集,仅经过基本格式预处理。
B2NERD is a refined dataset from 54 existing English and Chinese datasets, designed to enhance the generalization of large language models on the Open Named Entity Recognition (Open NER) task. It includes three versions: B2NERD (recommended version, containing ~52k samples, suitable for out-of-domain/zero-shot NER model training), B2NERD_all (containing ~1.4M samples, suitable for in-domain supervised evaluation), and B2NERD_raw (raw collected datasets with raw entity labels). B2NERD outperforms GPT-4 in multiple out-of-domain benchmarks and excels across 15 datasets and 6 languages.
提供机构:
Umean
原始信息汇总
B2NERD 数据集
概述
B2NERD 是一个经过精心整理和优化的数据集,旨在提升大型语言模型在开放命名实体识别(Open NER)任务中的泛化能力。该数据集从54个现有的英语和中文数据集中提炼而成。
数据集版本
B2NERD(推荐): 包含约52,000个样本,来自54个中文或英语数据集。适用于跨领域/零样本NER模型训练。具有标准化的实体定义和多样化的数据。B2NERD_all: 包含约140万个样本,来自54个数据集。适用于领域内监督评估。具有标准化的实体定义,但未进行数据选择或修剪。B2NERD_raw: 原始收集的数据集,带有原始实体标签。仅进行了基本格式预处理,未进一步标准化。
数据下载
数据集可以从 HuggingFace 或 Google Drive 下载。
数据统计
| Split | Lang. | Datasets | Types | Num | Raw Num |
|---|---|---|---|---|---|
| Train | En | 19 | 119 | 25,403 | 838,648 |
| Zh | 21 | 222 | 26,504 | 580,513 | |
| Total | 40 | 341 | 51,907 | 1,419,161 | |
| Test | En | 7 | 85 | - | 6,466 |
| Zh | 7 | 60 | - | 14,257 | |
| Total | 14 | 145 | - | 20,723 |
引用
@article{yang2024beyond, title={Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition}, author={Yang, Yuming and Zhao, Wantong and Huang, Caishuang and Ye, Junjie and Wang, Xiao and Zheng, Huiyuan and Nan, Yang and Wang, Yuran and Xu, Xueying and Huang, Kaixin and others}, journal={arXiv preprint arXiv:2406.11192}, year={2024} }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量数据集是提升模型泛化能力的关键。B2NERD数据集通过系统整合54个现有英文和中文命名实体识别数据集,经过精心筛选与标准化处理,形成一套统一且高效的训练资源。其构建过程涉及实体定义的统一规范与数据剪枝,旨在消除原始数据中的冗余与不一致性,同时保留数据的多样性。该数据集不仅包含约5.2万条训练样本,还提供了未剪枝的测试数据,为开放命名实体识别任务奠定了坚实的数据基础。
特点
B2NERD数据集展现出多方面的显著特点。其核心优势在于提供了一个跨语言与跨领域的通用实体分类体系,能够有效指导新实体的定义与标注。数据集采用简洁的自然语言提示格式,相比复杂提示方法,推理速度提升四倍,同时支持轻量级LoRA适配器,模型参数不超过50MB。此外,数据集设计兼容UIE风格指令,便于与其他信息抽取任务集成,实现了高效与灵活的统一。
使用方法
该数据集的使用方法兼顾便捷性与扩展性。研究人员可直接下载推荐的B2NERD版本,其中包含预处理的中英文测试集,便于进行开放域外评估。数据集以JSON格式组织,每个样本包含句子文本及实体位置与类型信息,支持直接用于模型训练与微调。通过结合提供的LoRA适配器与开源代码,用户能够快速部署模型,并在多语言基准测试中实现优异的零样本性能,推动命名实体识别研究的进一步发展。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别(NER)作为信息抽取的核心任务,长期以来面临着实体类型定义不一致、跨数据集泛化能力不足的挑战。B2NERD数据集由上海交通大学等机构的研究团队于2024年构建,旨在通过整合54个中英文原始数据集,构建统一的实体分类体系,以提升大语言模型在开放命名实体识别任务中的泛化性能。该数据集通过标准化实体定义与数据筛选,为跨语言、跨领域的实体识别研究提供了高质量基准,显著推动了开放环境下的实体识别技术发展。
当前挑战
开放命名实体识别任务的核心挑战在于模型需识别训练数据中未出现过的实体类型,这对模型的泛化与推理能力提出了极高要求。B2NERD在构建过程中,首先需解决多源数据集间实体类型定义冲突、标注规范不统一的问题,研究者通过人工梳理与自动化映射建立了通用实体分类体系。其次,从海量原始数据中筛选出兼具多样性与代表性的子集,以平衡训练效率与模型性能,这一过程涉及复杂的质量评估与去冗余策略。
常用场景
经典使用场景
在自然语言处理领域,命名实体识别(NER)作为信息抽取的核心任务,长期面临数据集异构和实体类型定义不一致的挑战。B2NERD数据集通过整合54个中英文数据集,构建了一个统一且高效的训练资源,专门用于支持开放命名实体识别(Open NER)模型的开发。该数据集以标准化实体分类体系和精选的样本为特点,为模型在未知领域或零样本场景下的泛化能力提供了坚实基础,成为推动跨数据集、跨语言NER研究的关键基础设施。
解决学术问题
B2NERD数据集主要解决了开放命名实体识别中实体类型定义碎片化和跨领域泛化能力不足的学术难题。通过提炼并统一多个数据集的实体分类,它建立了一个通用的实体分类体系,有效缓解了传统NER模型在面对新领域或未见实体类型时的性能下降问题。这一贡献不仅提升了模型在分布外(OOD)评估中的表现,还为构建更具适应性和可扩展性的信息抽取系统提供了理论支持,推动了自然语言处理向更通用、更鲁棒的方向发展。
衍生相关工作
围绕B2NERD数据集,已衍生出一系列经典研究工作,其中最突出的是B2NER模型系列。这些模型利用轻量级LoRA适配器,在多个分布外基准测试中实现了最先进的性能,超越了GPT-4等大型语言模型。此外,该数据集促进了统一信息抽取(UIE)风格指令的采用,使得模型能够更灵活地与其他信息抽取任务结合。相关成果已在计算语言学顶级会议COLING 2025上发表,为后续开放NER、跨语言迁移学习及通用实体分类体系的研究奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



