bigbio/nlm_gene
收藏Hugging Face2023-03-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/nlm_gene
下载链接
链接失效反馈官方服务:
资源简介:
NLM-Gene数据集包含550篇PubMed文章,来自156种期刊,包含超过1.5万个独特的基因名称,对应超过5000个基因标识符(NCBI基因分类)。该语料库包含来自28种生物的基因注释数据。每篇注释文章平均包含29个基因名称和10个基因标识符。这些特征表明,该文章集是测试基因识别算法准确性的重要基准数据集,特别是在多物种和模糊数据的情况下。NLM-Gene语料库对于推进生物医学文本中基因识别任务的文本挖掘技术将非常宝贵。
The NLM-Gene dataset consists of 550 PubMed articles sourced from 156 journals, containing over 15,000 unique gene names corresponding to more than 5,000 gene identifiers under the NCBI Gene classification. This corpus includes gene annotation data derived from 28 distinct organisms. On average, each annotated article contains 29 gene names and 10 gene identifiers. These attributes make this article collection a critical benchmark dataset for evaluating the accuracy of gene recognition algorithms, especially in scenarios involving multiple species and ambiguous data. The NLM-Gene corpus will be extremely valuable for advancing text mining technologies for gene recognition tasks in biomedical literature.
提供机构:
bigbio
原始信息汇总
数据集概述
基本信息
- 名称: NLM-Gene
- 语言: 英语
- 许可证: CC0-1.0
- 多语言性: 单语种
- 任务: 命名实体识别(NER), 命名实体消歧(NED)
数据集描述
- 包含内容: 550篇PubMed文章,来自156种期刊,包含超过15,000个独特的基因名称,对应于超过5,000个基因标识符(NCBI Gene taxonomy)。
- 涉及生物: 28种生物
- 平均每篇文章的基因名称和标识符: 平均每篇文章包含29个基因名称和10个基因标识符。
- 用途: 作为基准数据集,用于测试基因识别算法在多物种和模糊数据上的准确性。
引用信息
@article{islamaj2021nlm, title = {NLM-Gene, a richly annotated gold standard dataset for gene entities that addresses ambiguity and multi-species gene recognition}, author = {Islamaj, Rezarta and Wei, Chih-Hsuan and Cissel, David and Miliaras, Nicholas and Printseva, Olga and Rodionov, Oleg and Sekiya, Keiko and Ward, Janice and Lu, Zhiyong}, year = 2021, journal = {Journal of Biomedical Informatics}, publisher = {Elsevier}, volume = 118, pages = 103779 }
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,构建高质量标注数据集对于推动基因实体识别技术至关重要。NLM-Gene数据集的构建基于550篇PubMed文献,这些文献选自156种期刊,涵盖了28种不同生物体的基因注释数据。通过人工标注流程,数据集识别出超过1.5万个独特基因名称,并映射到超过5000个NCBI Gene分类学标识符,每篇文献平均包含29个基因名称和10个基因标识符,确保了数据的丰富性和代表性。
特点
该数据集的核心特点在于其针对基因名称的歧义性和多物种识别挑战进行了精心设计。作为一项黄金标准数据集,NLM-Gene不仅提供了密集的基因实体标注,还特别强调了跨物种基因名称的歧义解析能力,使其成为评估基因识别算法在多物种和模糊语境下准确性的重要基准。数据集的广泛覆盖和精细标注为生物医学文本挖掘研究提供了可靠的基础。
使用方法
在应用层面,NLM-Gene数据集主要用于命名实体识别和命名实体消歧任务。研究人员可通过其提供的结构化标注,训练和评估机器学习模型在生物医学文献中自动识别基因名称并解析其对应标识符的性能。数据集支持标准化评估流程,有助于推动基因文本挖掘工具的开发与优化,为生物医学信息提取研究提供实用资源。
背景与挑战
背景概述
在生物医学信息学领域,基因实体识别是文本挖掘技术的基础任务,旨在从海量文献中精准提取基因名称并关联其标准标识符。NLM-Gene数据集由美国国家医学图书馆(NLM)的研究团队于2021年创建,核心作者包括Rezarta Islamaj、Chih-Hsuan Wei和Zhiyong Lu等人。该数据集收录了550篇PubMed文章,涵盖156种期刊和28种生物体,包含超过1.5万个独特基因名称及五千余个基因标识符,其设计旨在应对基因名称的歧义性和跨物种识别难题,为基因识别算法提供了多物种、高歧义性的基准测试资源,显著推动了生物医学文本挖掘的标准化进程。
当前挑战
NLM-Gene数据集致力于解决基因命名实体识别与消歧的复杂问题,其核心挑战在于基因名称常存在一词多义或跨物种同名的歧义现象,且不同生物体的基因命名规范差异显著,增加了自动化识别的难度。在构建过程中,研究团队需从多期刊、多物种文献中手动标注高质量数据,确保基因名称与NCBI Gene分类标识符的精确映射,同时平衡数据集的物种覆盖范围与标注一致性,这一过程对领域专家的知识依赖度高,且需克服生物医学文本的语法多样性和术语演化带来的标注复杂性。
常用场景
经典使用场景
在生物医学文本挖掘领域,NLM-Gene数据集常被用于基因命名实体识别与消歧任务的基准评估。该数据集涵盖了550篇PubMed文献,包含超过1.5万个独特基因名称及五千余个基因标识符,涉及28种生物体,其多物种与高歧义性特征为算法提供了复杂而真实的测试环境。研究人员利用该数据集训练和验证深度学习模型,以提升在生物医学文献中自动识别和链接基因实体的准确性与鲁棒性。
解决学术问题
NLM-Gene数据集有效解决了生物医学文本挖掘中基因实体识别面临的歧义性与多物种挑战。传统方法在跨物种基因名称识别时易受同名词汇干扰,该数据集通过提供丰富的标注信息,包括基因名称与NCBI Gene标识符的对应关系,为消歧算法提供了黄金标准。这不仅促进了基因实体归一化研究的发展,也为构建更精准的生物医学知识图谱奠定了数据基础,推动了计算生物学与信息检索的交叉进步。
衍生相关工作
围绕NLM-Gene数据集,已衍生出一系列经典研究工作。例如,基于深度学习的命名实体识别模型如BERT变体在该数据集上进行了性能优化,推动了生物医学自然语言处理技术的发展。同时,该数据集也促进了基因消歧算法的创新,如结合知识图谱与上下文嵌入的方法,有效提升了跨物种基因链接的准确性。这些工作不仅丰富了文本挖掘的方法论,也为后续大型生物医学语料库的构建提供了重要参考。
以上内容由遇见数据集搜集并总结生成



