five

B2NERD

收藏
arXiv2024-06-17 更新2024-06-19 收录
下载链接:
https://github.com/UmeanNever/B2NER
下载链接
链接失效反馈
官方服务:
资源简介:
B2NERD是由复旦大学计算机科学学院开发的一个综合数据集,旨在解决开放命名实体识别(Open NER)中的挑战。该数据集从54个英文和中文数据集中提取,包含超过51,000条记录,涵盖了400多种实体类型,覆盖16个主要领域。创建过程中,首先通过模型和规则基础的方法检测并标准化了不同数据集间的实体定义冲突,然后通过数据修剪策略减少冗余,增强数据多样性。B2NERD的应用领域广泛,特别适用于法律和生物医学等低资源领域的实体识别任务,旨在提高大型语言模型在未知和常见实体识别上的泛化能力。

B2NERD is a comprehensive dataset developed by the School of Computer Science, Fudan University, aimed at addressing the challenges in open named entity recognition (Open NER). Derived from 54 English and Chinese datasets, it contains over 51,000 records, covering more than 400 entity types and spanning 16 major domains. During its development, model-based and rule-based methods were first employed to detect and standardize the conflicts in entity definitions across different datasets, followed by a data pruning strategy to reduce redundancy and enhance data diversity. B2NERD has broad application scenarios, and is particularly suitable for entity recognition tasks in low-resource domains such as law and biomedicine, with the goal of improving the generalization ability of large language models (LLMs) in recognizing both unseen and common entities.
提供机构:
复旦大学计算机科学学院
创建时间:
2024-06-17
搜集汇总
数据集介绍
main_image_url
构建方式
B2NERD数据集的构建采用了系统化的两步法策略。首先,通过模型交叉验证与规则筛选,检测并标准化54个中英文数据集中的实体定义不一致问题,构建了涵盖400+实体类型的通用分类体系。其次,采用基于类别与语义多样性的数据剪枝算法,从原始数据中筛选出最具代表性的样本,确保每个实体类型保留约400个语义差异显著的实例,最终形成精简高效的数据集。
使用方法
使用B2NERD时需遵循其任务适配范式:1)采用动态标签集机制,在指令中随机排列实体类型顺序以避免模型记忆固定模式;2)推荐结合LoRA等参数高效微调方法,在InternLM2等双语模型上实现最佳性能;3)对于零样本场景,可直接调用预构建的通用分类体系,通过自然语言指令(如“识别所有[城市,区县]实体”)实现跨领域迁移。评估时应采用严格边界匹配的F1指标,重点关注模型在15个跨语言测试集上的OOD表现。
背景与挑战
背景概述
B2NERD(Beyond-Boundary NER Dataset)是由复旦大学计算机学院的研究团队于2024年提出的一个跨数据集、跨语言的开放命名实体识别(Open NER)数据集。该数据集旨在解决大型语言模型(LLMs)在开放领域实体识别中面临的泛化能力不足问题。B2NERD通过整合54个现有的英文和中文NER数据集,构建了一个包含400多种实体类型的通用分类体系,显著提升了LLMs在开放NER任务中的表现。该数据集的创建标志着NER研究从特定领域向开放领域的重要转变,为法律、生物医学等低资源领域的实体识别提供了有力支持。
当前挑战
B2NERD面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,开放NER需要模型能够识别任意领域和任意类型的实体,这对模型的泛化能力提出了极高要求。现有数据集存在的实体定义不一致(如不同数据集对'LOC'类型的不同界定)和数据冗余问题严重限制了模型的跨领域表现。在构建过程方面,研究团队需要解决三大技术难题:1)跨数据集实体定义的标准化,需通过基于模型的交叉验证和规则筛选检测不一致性;2)构建通用实体分类体系,需专家参与厘清400+实体类型的语义边界;3)数据去冗余策略的设计,需平衡类别多样性和语义多样性,避免模型过拟合。这些挑战的解决为开放NER研究提供了重要的方法论参考。
常用场景
解决学术问题
B2NERD针对开放NER研究的核心挑战提出了系统性解决方案:首先,通过模型交叉验证和规则筛选检测不一致的实体定义,构建覆盖常见与未见实体的通用分类体系,缓解了LLM在跨数据集学习时的标签混淆问题;其次,采用基于类别和语义多样性的数据剪枝策略,平衡了长尾实体分布,抑制了模型对冗余样本的过拟合。实验表明,基于B2NERD训练的模型在15个跨领域数据集上F1值超越GPT-4达6.8-12.0点,显著推动了开放NER的泛化理论发展。
实际应用
在实际应用中,B2NERD支撑的B2NER模型已成功部署于多语言信息抽取系统。例如,在跨境电商场景中精准识别商品属性(如“复古汽车”与“MPV”的细粒度分类),在医疗文献分析中区分“细胞系”与“解剖部位”等专业实体。其动态标签集设计允许灵活适配新兴领域(如社交媒体中的新兴网络用语实体),而语义多样性采样策略则显著提升了模型在低资源语言(如荷兰语、俄语)的零样本迁移效果,为全球化NLP应用提供了可靠的基础设施。
数据集最近研究
最新研究方向
B2NERD数据集在开放命名实体识别(Open NER)领域的研究主要集中在解决大型语言模型(LLMs)在处理跨数据集和跨语言实体识别时的泛化能力不足问题。通过构建一个包含400多种实体类型的通用分类法,并采用数据剪枝策略优化样本多样性,B2NERD显著提升了LLMs在开放NER任务中的表现。该数据集的最新研究方向包括实体定义标准化、多语言实体识别以及数据效率优化,这些方向对于推动低资源领域(如法律和生物医学)的信息提取技术具有重要意义。此外,B2NERD的研究还涉及如何利用现有数据集的标注信息,通过两阶段方法(实体定义标准化和数据剪枝)来克服数据冗余和定义不一致的问题,从而为LLMs提供更高质量的训练数据。
相关研究论文
  • 1
    Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition复旦大学计算机科学学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作