genia-ner
收藏Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/extraordinarylab/genia-ner
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含文本序列和命名实体识别标签序列的数据集,分为训练集、验证集和测试集三个部分,适用于进行命名实体识别等NLP任务。数据集的具体内容和格式未详细说明。
创建时间:
2025-10-22
原始信息汇总
GENIA NER数据集概述
数据集基本信息
- 数据集名称:GENIA NER
- 存储位置:https://huggingface.co/datasets/extraordinarylab/genia-ner
- 下载大小:1,595,282字节
- 数据集大小:7,722,903字节
数据特征
- 文本序列:tokens(字符串序列)
- 标注序列:ner_tags(字符串序列)
数据划分
- 训练集:15,023个样本,6,271,422字节
- 验证集:1,669个样本,667,453字节
- 测试集:1,854个样本,784,028字节
实体类型
- CELL_LINE(细胞系)
- CELL_TYPE(细胞类型)
- DNA(脱氧核糖核酸)
- PROTEIN(蛋白质)
- RNA(核糖核酸)
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,GENIA-NER数据集通过系统化标注生物医学文献构建而成。该数据集从专业学术期刊中提取文本片段,由领域专家采用统一标注规范对生物实体进行人工标注,涵盖细胞系、细胞类型、DNA、蛋白质和RNA五类关键生物实体。标注过程采用严格的质控流程,确保实体边界识别和类型判定的准确性,最终形成包含训练集、验证集和测试集的标准化语料库。
使用方法
该数据集适用于生物医学命名实体识别任务的模型训练与评估,使用者可通过标准数据加载接口获取预划分的训练、验证和测试集。建模时可基于词序列与对应标注序列构建监督学习框架,利用深度学习方法学习生物医学实体的语言模式。评估阶段通过标准测试集衡量模型在五类实体上的识别性能,支持模型在生物医学文本挖掘、知识图谱构建等下游任务中的迁移应用。
背景与挑战
背景概述
GENIA-NER数据集由日本国立遗传学研究所于2003年推出,专攻生物医学文本挖掘领域。该数据集聚焦分子生物学文献中生物实体识别任务,标注了细胞系、细胞类型、DNA、蛋白质和RNA五类关键生物实体。作为早期生物命名实体识别研究的里程碑,它推动了生物医学自然语言处理技术的发展,并为后续生物文本挖掘研究提供了重要基准。
当前挑战
该数据集面临生物医学术语变异表达的识别挑战,如同义术语与缩写形式的准确匹配。实体边界模糊性构成主要难点,特别是复合生物实体与嵌套结构的标注一致性。数据规模有限制约了深度学习模型性能,而领域专业术语的演化要求持续更新标注体系。生物实体间的语义关系挖掘仍需更精细的标注框架支持。
常用场景
经典使用场景
在生物医学文本挖掘领域,GENIA-NER数据集被广泛用于命名实体识别任务,其标注涵盖了细胞系、细胞类型、DNA、蛋白质和RNA等关键生物分子实体。研究者通常利用该数据集训练机器学习模型,以自动识别科学文献中的生物医学实体,从而支持信息提取和知识发现。这一场景显著提升了生物医学文本的结构化处理效率,为后续分析奠定基础。
解决学术问题
GENIA-NER数据集主要解决了生物医学文献中实体识别模糊和标准化不足的学术挑战。通过提供高质量的标注数据,它促进了自然语言处理模型在生物医学领域的适配性,减少了实体歧义问题。这一进展对构建生物医学知识图谱和推进计算生物学研究具有深远意义,推动了跨学科研究的融合与发展。
实际应用
在实际应用中,GENIA-NER数据集被集成到生物信息学工具和系统中,用于自动化提取药物靶点、基因功能关联等关键信息。例如,在药物研发流程中,它帮助研究人员快速筛选文献中的蛋白质和DNA实体,加速实验设计。这种应用不仅优化了科研工作流,还增强了临床研究和精准医疗的数据支持能力。
数据集最近研究
最新研究方向
在生物医学信息抽取领域,GENIA-NER数据集持续推动着命名实体识别技术的革新。当前研究聚焦于利用预训练语言模型如BERT和BioBERT,通过跨领域迁移学习提升对细胞系、蛋白质等生物实体边界的精准界定。随着多模态数据融合成为热点,该数据集正被整合进知识图谱构建流程,辅助解析基因调控网络中的复杂交互关系。其标注体系已成为生物医学文本挖掘的标准基准,显著促进了药物发现和精准医疗中实体关系抽取的自动化进程。
以上内容由遇见数据集搜集并总结生成



