bigbio/jnlpba

Name: bigbio/jnlpba
Creator: bigbio
Published: 2022-12-22 15:44:48
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/jnlpba

下载链接

链接失效反馈

官方服务：

资源简介：

JNLPBA数据集是一个用于生物实体识别（NER）任务的英文单语数据集。该数据集与PubMed相关，公开可用，主要用于识别生物医学文本中的命名实体。

The JNLPBA dataset is an English monolingual dataset designed for the biomedical named entity recognition (NER) task. It is associated with PubMed, publicly available, and primarily used to identify named entities in biomedical texts.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: JNLPBA
语言: 英语
许可证: CC-BY-3.0
多语言性: 单语种
PubMed可用性: 是
公开性: 是

任务

主要任务: 命名实体识别 (NER)

引用信息

@inproceedings{collier-kim-2004-introduction, title = "Introduction to the Bio-entity Recognition Task at {JNLPBA}", author = "Collier, Nigel and Kim, Jin-Dong", booktitle = "Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications ({NLPBA}/{B}io{NLP})", month = aug # " 28th and 29th", year = "2004", address = "Geneva, Switzerland", publisher = "COLING", url = "https://aclanthology.org/W04-1213", pages = "73--78", }

搜集汇总

数据集介绍

构建方式

在生物医学自然语言处理领域，JNLPBA数据集源自2004年国际联合研讨会上的生物实体识别共享任务。该数据集基于GENIA语料库构建，通过专家标注从PubMed摘要中提取的文本，涵盖了蛋白质、DNA、RNA、细胞系和细胞类型五类生物实体。标注过程遵循严格的准则，确保实体边界和类别的一致性，为后续模型训练与评估提供了高质量的基础。

特点

JNLPBA数据集以其专注于生物医学命名实体识别而著称，包含约2,000篇PubMed摘要，标注了超过100,000个实体实例。其特点在于实体类别的精细划分，覆盖了分子生物学中的关键概念，如蛋白质和核酸，同时数据以英文呈现，具有单语性。该数据集作为早期共享任务的产物，促进了生物NLP领域标准化评估的发展，至今仍被广泛用作基准测试工具。

使用方法

使用JNLPBA数据集时，研究人员通常将其划分为训练集、开发集和测试集，以支持监督学习模型的训练与验证。数据集适用于命名实体识别任务，可通过HuggingFace平台轻松加载，并集成到如Transformers等框架中。用户需注意遵守CC BY 3.0许可，确保在生物医学信息提取、文本挖掘或模型比较研究中合理引用原始文献，以维护学术诚信。

背景与挑战

背景概述

在生物医学自然语言处理领域，实体识别是信息抽取的关键基础任务，旨在从非结构化文本中自动识别并分类生物医学实体。JNLPBA数据集诞生于2004年，由国际计算语言学协会（COLING）组织的生物医学自然语言处理联合研讨会推出，核心研究人员包括Nigel Collier和Jin-Dong Kim等学者。该数据集聚焦于生物实体识别任务，专门标注了蛋白质、DNA、RNA、细胞系和细胞类型五类实体，为后续生物医学文本挖掘研究提供了标准化的评估基准，显著推动了生物医学文献自动化处理技术的发展。

当前挑战

JNLPBA数据集所针对的生物医学命名实体识别任务面临诸多挑战：生物医学术语具有高度专业性和多样性，同一实体常存在多种表达形式，且新术语不断涌现，导致模型泛化能力受限；实体边界模糊，尤其是复合实体和嵌套实体的识别尤为困难。在数据集构建过程中，标注工作依赖领域专家手动完成，成本高昂且易引入主观不一致性；原始生物医学文本来源复杂，格式不统一，需要进行大量的预处理和清洗，以确保标注质量与一致性。

常用场景

经典使用场景

在生物医学自然语言处理领域，JNLPBA数据集作为一项经典基准，广泛用于命名实体识别任务。该数据集聚焦于从生物医学文献中提取关键实体，如蛋白质、DNA、RNA、细胞系和细胞类型，为研究者提供了一个标准化的评估平台。通过标注丰富的文本语料，它促进了模型在复杂生物学术语环境下的性能优化，成为衡量算法准确性与鲁棒性的重要工具。

解决学术问题

JNLPBA数据集有效解决了生物医学文本中实体识别模糊性与多样性的挑战。传统方法难以处理生物学术语的缩写、同义词及嵌套结构，而该数据集通过精细的标注体系，为模型训练提供了高质量监督信号。这不仅提升了实体边界的精确划分能力，还推动了跨领域迁移学习的研究，为生物信息学与计算语言学的交叉创新奠定了数据基础。

衍生相关工作

围绕JNLPBA数据集，衍生出众多经典研究工作，推动了生物医学NLP领域的进展。早期研究如基于条件随机场和支撑向量机的模型，奠定了实体识别的基础框架；后续深度学习方法，如双向长短期记忆网络与注意力机制，进一步提升了识别精度。这些工作不仅丰富了算法库，还催生了如BioBERT等预训练模型，扩展了数据集在迁移学习与多任务学习中的应用范畴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集