bigbio/gnormplus
收藏Hugging Face2023-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/gnormplus
下载链接
链接失效反馈官方服务:
资源简介:
GNormPlus数据集重新注释了两个现有的基因语料库:BioCreative II GN语料库和Citation GIA测试集。BioCreative II GN语料库包含543篇文章的文档级注释,而Citation GIA测试集包含151篇PubMed摘要的提及级和文档级注释。数据集特别关注人类基因,并添加了基因家族和蛋白质结构域的注释。最终,数据集包含694篇PubMed文章,使用PubTator作为注释工具,并以BioC格式存储。
The GNormPlus dataset re-annotates two existing gene corpora: the BioCreative II GN Corpus and the Citation GIA Test Set. The BioCreative II GN Corpus contains document-level annotations for 543 articles, while the Citation GIA Test Set includes mention-level and document-level annotations for 151 PubMed abstracts. The dataset specifically focuses on human genes, and adds annotations for gene families and protein domains. In total, the dataset comprises 694 PubMed articles, which were annotated using PubTator and stored in the BioC format.
提供机构:
bigbio
原始信息汇总
数据集概述
基本信息
- 名称: GNormPlus
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语种
- 主页: https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/gnormplus/
- 是否公开: 是
- 是否可在PubMed上访问: 是
任务类型
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
数据集详情
- 原始数据集:
- BioCreative II GN corpus: 包含543篇文章,其中训练集281篇,测试集262篇。
- Citation GIA Test Collection: 包含151篇PubMed摘要,具有提及级和文档级注释。
- 新增注释:
- 为两个数据集添加了基因家族和蛋白质域的注释。
- 为BioCreative GN corpus增加了提及级基因注释。
- 总文章数: 694篇PubMed文章
- 注释工具: PubTator,使用BioC格式
引用信息
@Article{Wei2015, author={Wei, Chih-Hsuan and Kao, Hung-Yu and Lu, Zhiyong}, title={GNormPlus: An Integrative Approach for Tagging Genes, Gene Families, and Protein Domains}, journal={BioMed Research International}, year={2015}, month={Aug}, day={25}, publisher={Hindawi Publishing Corporation}, volume={2015}, pages={918710}, issn={2314-6133}, doi={10.1155/2015/918710}, url={https://doi.org/10.1155/2015/918710} }
搜集汇总
数据集介绍

构建方式
在生物医学文本挖掘领域,GNormPlus数据集的构建体现了对现有基因标注资源的深度整合与扩展。该数据集以BioCreative II GN语料库和Citation GIA测试集为基础,这两个资源均聚焦于人类基因,分别包含543篇和151篇PubMed摘要。通过采用PubTator作为标注工具并遵循BioC格式,研究团队不仅补充了基因家族与蛋白质结构域的标注,还为BioCreative GN语料库增添了提及级别的基因注释,最终形成了包含694篇PubMed文章的统一新语料库。
特点
GNormPlus数据集在生物医学实体识别与消歧任务中展现出鲜明的专业特性。其核心优势在于融合了文档级别与提及级别的双重基因标注,同时涵盖了基因、基因家族及蛋白质结构域等多类实体,为复杂生物实体关系的解析提供了结构化基础。数据全部来源于经过严格同行评议的PubMed文献,确保了语料的科学权威性,并且其标注遵循标准化的BioC格式,极大便利了后续的计算处理与工具开发。
使用方法
该数据集主要服务于生物医学自然语言处理研究,尤其适用于训练和评估基因命名实体识别与消歧模型。使用者可通过其提供的标准化BioC格式文件,直接导入模型训练流程,进行实体边界检测与归一化链接任务。鉴于其整合了多个经典语料,研究人员亦可将其作为基准数据集,用于比较不同算法在基因提及标准化与家族关系抽取方面的性能,从而推动生物文本挖掘技术的进步。
背景与挑战
背景概述
随着生物医学文献的爆炸式增长,从海量文本中自动识别基因、基因家族及蛋白质结构域等生物实体,成为生物信息学与自然语言处理交叉领域的关键研究课题。GNormPlus数据集由美国国立卫生研究院(NIH)的研究人员Chih-Hsuan Wei、Hung-Yu Kao及Zhiyong Lu等人于2015年构建,其核心目标在于整合基因标准化与实体识别任务,为基因标注提供统一的标注框架。该数据集重新标注了BioCreative II GN语料库和Citation GIA测试集,涵盖694篇PubMed文献,通过PubTator工具以BioC格式进行系统化标注,显著提升了基因实体识别与消歧的基准性能,对生物医学文本挖掘领域的发展产生了深远影响。
当前挑战
在基因实体识别与消歧领域,主要挑战在于生物医学文本中基因名称的多样性与歧义性,同一基因常存在多种别名或缩写,而不同基因可能共享相同名称,这给准确识别与链接到标准数据库带来困难。数据集构建过程中,研究人员面临标注一致性与覆盖范围的挑战,需在原有语料基础上新增基因家族与蛋白质结构域标注,同时统一不同来源的标注标准,确保标注质量与生物学术语体系的完整性,这些工作对标注工具与领域专家知识均提出了较高要求。
常用场景
经典使用场景
在生物医学文本挖掘领域,GNormPlus数据集作为基因标准化任务的核心资源,其经典使用场景聚焦于基因与蛋白质实体识别与消歧。该数据集整合了BioCreative II GN语料库与Citation GIA测试集,通过重新标注增强了基因家族与蛋白质结构域的注释,为研究者提供了包含694篇PubMed文献的标准化语料。这一精心构建的语料库常被用于训练与评估命名实体识别及消歧模型,助力于从海量生物医学文献中精准提取基因相关信息,为后续知识发现奠定坚实基础。
解决学术问题
GNormPlus数据集有效应对了生物医学自然语言处理中的关键挑战,即基因实体在文本中的歧义性与变异性问题。通过提供统一且细粒度的标注标准,该数据集促进了基因标准化算法的开发,解决了基因名称缩写、同义词及家族关联的识别难题。其贡献在于将分散的基因注释整合为结构化知识,显著提升了自动化基因索引的准确性与一致性,为大规模生物医学文献挖掘提供了可靠的数据支撑,推动了计算生物学与信息检索领域的交叉进展。
衍生相关工作
围绕GNormPlus数据集,衍生出一系列经典研究工作,持续推动生物医学文本挖掘技术的发展。例如,基于该数据集的基因标准化工具GNormPlus本身已成为领域基准,后续研究如TaggerOne、BioBERT等模型均以其为评估标准,优化了深度学习在基因实体识别中的性能。同时,该数据集还促进了跨语料库标注规范的统一,启发了如NCBI BioC格式的广泛采用,为生物医学自然语言处理社区的协作与资源共享奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



