bio-datasets/bigbio-ner-merged
收藏Hugging Face2023-04-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bio-datasets/bigbio-ner-merged
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: answer
dtype: string
- name: id
dtype: string
- name: instruction
dtype: string
- name: ner_tags
sequence: string
- name: text
dtype: string
- name: tokens
sequence: string
- name: types
sequence: string
splits:
- name: train
num_bytes: 731669097
num_examples: 125928
download_size: 141384126
dataset_size: 731669097
---
# Dataset Card for "bigbio-ner-merged"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征列表:
- 字段名:answer,数据类型:字符串(string)
- 字段名:id,数据类型:字符串(string)
- 字段名:instruction,数据类型:字符串(string)
- 字段名:ner_tags(命名实体识别标签),数据类型:字符串序列(sequence string)
- 字段名:text,数据类型:字符串(string)
- 字段名:tokens,数据类型:字符串序列(sequence string)
- 字段名:types,数据类型:字符串序列(sequence string)
数据划分:
- 划分集名称:训练集,字节数:731669097,样本数量:125928
下载大小:141384126
数据集总占用字节数:731669097
---
# "bigbio-ner-merged"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
bio-datasets
原始信息汇总
数据集概述
数据集名称
- 名称: bigbio-ner-merged
数据集特征
- 特征列表:
- answer: 数据类型 - 字符串
- id: 数据类型 - 字符串
- instruction: 数据类型 - 字符串
- ner_tags: 数据类型 - 序列字符串
- text: 数据类型 - 字符串
- tokens: 数据类型 - 序列字符串
- types: 数据类型 - 序列字符串
数据集分割
- 训练集:
- 大小: 731669097 字节
- 示例数量: 125928
数据集大小
- 下载大小: 141384126 字节
- 总大小: 731669097 字节
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,数据整合是提升模型泛化能力的关键。bigbio-ner-merged数据集通过系统性地合并多个公开的生物医学命名实体识别(NER)数据集构建而成。其构建过程涉及数据清洗、格式统一与标签映射,确保不同来源的标注标准能够协调一致。该数据集整合了丰富的生物医学文本资源,涵盖了基因、蛋白质、疾病等多种实体类型,为研究者提供了一个大规模、多源的综合语料库。
特点
该数据集的核心特点在于其高度的多样性与标准化结构。它融合了多个独立数据集的标注体系,形成了统一的实体类型分类,如基因、蛋白质和疾病等,这有助于模型学习跨领域的实体表示。数据集提供了清晰的文本、分词序列及对应的NER标签序列,支持端到端的序列标注任务。其大规模的训练样本(约12.6万条)为深度学习模型提供了充足的训练资源,同时保持了数据格式的一致性,便于直接应用于各类自然语言处理框架。
使用方法
使用bigbio-ner-merged数据集时,研究者可通过HuggingFace数据集库直接加载,利用其预定义的分割(如训练集)进行模型训练与评估。数据集的结构化特征,包括文本、分词和NER标签序列,允许用户轻松构建序列标注管道,例如用于训练BERT或BiLSTM-CRF等模型。由于数据已统一处理,用户无需额外进行格式转换,可直接专注于模型开发与实验设计,加速生物医学NER研究的迭代进程。
背景与挑战
背景概述
生物医学命名实体识别(NER)作为自然语言处理在生命科学领域的核心任务,旨在从非结构化文本中自动识别并分类生物医学实体,如基因、蛋白质、疾病等。bigbio-ner-merged数据集由BigBio项目团队于近年整合构建,该项目致力于推动生物医学NLP研究的开放性与可重复性。该数据集通过融合多个现有生物医学NER基准,为研究人员提供了一个统一且规模庞大的标注语料库,显著促进了跨数据集模型评估与迁移学习研究,对生物信息学与计算语言学交叉领域的发展产生了深远影响。
当前挑战
生物医学命名实体识别面临实体边界模糊、命名变异频繁以及领域术语动态演化等固有挑战,要求模型具备深度的语义理解与领域知识融合能力。在数据集构建过程中,整合不同来源的标注语料遭遇了标注规范不统一、实体类型体系异构以及数据质量参差不齐等难题,这些因素增加了数据清洗、对齐与标准化工作的复杂性,对构建高质量、一致性的基准数据集提出了严峻考验。
常用场景
经典使用场景
在生物医学信息抽取领域,bigbio-ner-merged数据集作为命名实体识别任务的核心资源,其经典使用场景在于训练和评估模型从非结构化生物医学文本中自动识别并分类关键实体。该数据集整合了多个来源的标注数据,覆盖基因、蛋白质、疾病、化学物质等多种实体类型,为研究者提供了统一且大规模的基准测试平台。通过利用其丰富的标注信息,模型能够学习到生物医学文本的复杂语义结构,进而提升实体识别的准确性和泛化能力,这在生物医学文献挖掘和知识图谱构建中具有基础性作用。
实际应用
在实际应用中,bigbio-ner-merged数据集支撑了生物医学文本分析系统的开发,例如在电子健康记录处理、药物研发辅助和科学文献检索中发挥关键作用。通过基于该数据集训练的模型,医疗信息系统能够自动提取患者病历中的疾病和药物信息,辅助临床决策;制药公司则可快速扫描文献以识别潜在药物靶点,加速新药发现流程。这些应用不仅提高了工作效率,还增强了生物医学数据的可访问性和利用价值,服务于公共卫生和个性化医疗等现实需求。
衍生相关工作
围绕bigbio-ner-merged数据集,衍生了一系列经典研究工作,主要集中在改进命名实体识别模型和扩展其应用范围。例如,研究者开发了基于深度学习的序列标注模型,如BiLSTM-CRF和BERT变体,这些模型在该数据集上进行了优化和验证,显著提升了实体识别的性能。此外,相关工作还探索了多任务学习框架,将实体识别与关系抽取相结合,以构建更全面的生物医学知识网络。这些衍生工作不仅丰富了自然语言处理技术,还促进了生物医学领域的知识自动化进程,为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



