bigbio/citation_gia_test_collection
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/citation_gia_test_collection
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
bigbio_language:
- English
license: unknown
multilinguality: monolingual
bigbio_license_shortname: UNKNOWN
pretty_name: Citation GIA Test Collection
homepage: https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/gnormplus/
bigbio_pubmed: True
bigbio_public: True
bigbio_tasks:
- NAMED_ENTITY_RECOGNITION
- NAMED_ENTITY_DISAMBIGUATION
---
# Dataset Card for Citation GIA Test Collection
## Dataset Description
- **Homepage:** https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/gnormplus/
- **Pubmed:** True
- **Public:** True
- **Tasks:** NER,NED
The Citation GIA Test Collection was recently created for gene indexing at the
NLM and includes 151 PubMed abstracts with both mention-level and document-level
annotations. They are selected because both have a focus on human genes.
## Citation Information
```
@article{Wei2015,
title = {
{GNormPlus}: An Integrative Approach for Tagging Genes, Gene Families,
and Protein Domains
},
author = {Chih-Hsuan Wei and Hung-Yu Kao and Zhiyong Lu},
year = 2015,
journal = {{BioMed} Research International},
publisher = {Hindawi Limited},
volume = 2015,
pages = {1--7},
doi = {10.1155/2015/918710},
url = {https://doi.org/10.1155/2015/918710}
}
```
---
语言:英语
大生物信息学语言:英语
许可证:未知
多语言属性:单语言
大生物信息学许可证简称:UNKNOWN
数据集名称:引文GIA测试集(Citation GIA Test Collection)
项目主页:https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/gnormplus/
大生物信息学PubMed关联:是
大生物信息学公开状态:是
大生物信息学任务:命名实体识别(NAMED_ENTITY_RECOGNITION)、命名实体消歧(NAMED_ENTITY_DISAMBIGUATION)
---
# 引文GIA测试集(Citation GIA Test Collection)数据集卡片
## 数据集说明
- **项目主页**:https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/gnormplus/
- **PubMed关联**:是
- **公开状态**:是
- **任务**:命名实体识别(NER)、命名实体消歧(NED)
引文GIA测试集由美国国立医学图书馆(NLM)近期为基因索引工作构建,包含151篇PubMed摘要,均带有提及级与文档级两类标注。该数据集的选取标准为两类标注均聚焦于人类基因。
## 引用信息
@article{Wei2015,
title = {
{GNormPlus}: 用于标记基因、基因家族与蛋白质结构域的整合方法
},
author = {Chih-Hsuan Wei and Hung-Yu Kao and Zhiyong Lu},
year = 2015,
journal = {{BioMed} Research International},
publisher = {Hindawi Limited},
volume = 2015,
pages = {1--7},
doi = {10.1155/2015/918710},
url = {https://doi.org/10.1155/2015/918710}
}
提供机构:
bigbio
原始信息汇总
数据集概述
基本信息
- 名称: Citation GIA Test Collection
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语种
- PubMed可用性: 是
- 公开性: 是
数据集描述
- 主页: https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/gnormplus/
- 任务:
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
数据详情
- 包含文献数量: 151篇PubMed摘要
- 注释类型: 提及级和文档级注释
- 主题焦点: 人类基因
引用信息
@article{Wei2015, title = {GNormPlus}: An Integrative Approach for Tagging Genes, Gene Families, and Protein Domains author = {Chih-Hsuan Wei and Hung-Yu Kao and Zhiyong Lu}, year = 2015, journal = {BioMed Research International}, publisher = {Hindawi Limited}, volume = 2015, pages = {1--7}, doi = {10.1155/2015/918710}, url = {https://doi.org/10.1155/2015/918710} }
搜集汇总
数据集介绍

构建方式
在生物医学文献信息抽取领域,构建高质量的标注数据集是推动基因标准化索引技术发展的基石。Citation GIA Test Collection 的构建过程体现了严谨的学术方法,其核心是从庞大的 PubMed 文献库中,依据对人类基因的聚焦程度,精心筛选出 151 篇摘要作为语料基础。随后,研究团队对这些文本进行了双重粒度的深度标注,不仅标注了基因名称在文本中的具体提及位置,还提供了文档级别的整体基因索引信息,从而形成了一个结构清晰、标注层次丰富的测试集合。
使用方法
对于致力于基因命名实体识别与消歧的研究者而言,该数据集提供了标准化的评估框架。使用者可将其加载至支持 HuggingFace `datasets` 库的环境中,通过指定 `bigbio/citation_gia_test_collection` 路径即可便捷访问。在具体应用中,研究者可分别利用其 mention-level 的标注进行实体边界与类型识别模型的训练与测试,或利用 document-level 的标注进行基因概念归一化与索引性能的评估。该数据集已集成于 BigBio 框架内,能够无缝衔接多种生物医学 NLP 任务流程。
背景与挑战
背景概述
在生物医学信息学领域,基因索引是支撑精准文献检索与知识发现的关键技术。Citation GIA Test Collection由美国国家医学图书馆(NLM)的研究团队于2015年前后创建,核心研究人员包括Chih-Hsuan Wei、Hung-Yu Kao和Zhiyong Lu,旨在为基因标准化与消歧任务提供基准评估资源。该数据集聚焦人类基因,收录了151篇PubMed摘要,同时包含实体提及与文档层面的标注,为基因命名实体识别与消歧研究提供了重要数据基础,推动了生物医学文本挖掘工具如GNormPlus的发展,显著提升了基因相关文献的自动化处理能力。
当前挑战
该数据集致力于解决基因索引中命名实体识别与消歧的复杂问题,其核心挑战在于生物医学文本中基因名称的多样性与歧义性,如同义词、缩写及跨物种混淆现象。在构建过程中,研究人员面临标注一致性与准确性的难题,需在专业领域知识指导下,平衡标注粒度与覆盖范围,确保人类基因相关提及的精确标注,同时处理文献中基因与蛋白质家族、结构域交织的复杂语境,这对标注协议的设计与质量控制提出了较高要求。
常用场景
经典使用场景
在生物医学信息学领域,基因与蛋白质的精准识别与关联是文本挖掘的核心挑战。Citation GIA Test Collection作为一项专门针对人类基因索引的测试集,其经典使用场景聚焦于命名实体识别与消歧任务的评估与优化。该数据集通过提供151篇PubMed摘要的提及级和文档级标注,为研究者构建了一个标准化的基准平台,用以训练和验证模型在复杂生物医学语境下准确提取并链接基因实体的能力。
解决学术问题
该数据集直接回应了生物医学文献中基因命名模糊与多义性带来的学术难题。它系统性地解决了基因实体在文本中的边界划分、类型归类以及跨文献统一标识的挑战,为命名实体识别与消歧研究提供了高质量的黄金标准语料。其意义在于推动了自动化基因索引技术的发展,显著提升了大规模生物医学文本挖掘的准确性与效率,对后续知识图谱构建与精准医学信息检索产生了深远影响。
实际应用
超越纯学术研究,Citation GIA Test Collection的实际价值体现在支撑国家医学图书馆等机构的自动化基因索引工作流中。基于该数据集开发的工具能够高效处理海量PubMed文献,自动标注并链接文中提及的人类基因,从而加速生物医学数据库的更新与维护。这直接服务于科研人员的信息检索需求,助力于基因功能研究、药物靶点发现以及个性化医疗等前沿领域的知识发现进程。
数据集最近研究
最新研究方向
在生物医学信息学领域,基因标准化与消歧是文本挖掘的核心挑战。Citation GIA Test Collection作为专门针对人类基因标注的测试集,其最新研究聚焦于结合深度学习与知识图谱的实体链接技术。前沿探索利用预训练语言模型增强基因名称识别,并整合多源生物数据库以提升消歧精度,相关进展正推动精准医学与药物研发中自动化文献挖掘的应用。该数据集的影响在于为评估基因索引算法提供了基准,促进了生物医学自然语言处理工具的实际部署与优化。
以上内容由遇见数据集搜集并总结生成



