PhenotypeGene Relations (PGR) corpus

Name: PhenotypeGene Relations (PGR) corpus
Creator: 里斯本大学理学院
Published: 2020-04-13 18:45:20
License: 暂无描述

arXiv2020-04-13 更新2024-06-21 收录

下载链接：

https://github.com/lasigeBioTM/PGR

下载链接

链接失效反馈

官方服务：

资源简介：

PhenotypeGene Relations (PGR) corpus是由里斯本大学理学院的研究团队创建的一个银标数据集，专注于人类表型与基因关系的标注。该数据集包含1712篇摘要，涉及5676个人类表型标注和13835个基因标注，以及4283个关系标注。创建过程中使用了命名实体识别工具，并通过八位编者部分评估，达到87.01%的精确度。数据集主要用于解决生物医学文献中自动提取表型-基因关系的问题，支持深度学习工具的开发和评估。

The PhenotypeGene Relations (PGR) corpus is a silver-standard dataset created by a research team from the Faculty of Science, University of Lisbon, focusing on the annotation of human phenotype-gene relationships. This corpus contains 1,712 abstracts, involving 5,676 human phenotype annotations, 13,835 gene annotations, and 4,283 relationship annotations. During its creation, named entity recognition tools were utilized, and partial evaluation was conducted by eight annotators, achieving an accuracy of 87.01%. This dataset is primarily used to address the task of automatically extracting phenotype-gene relationships from biomedical literature, supporting the development and evaluation of deep learning tools.

提供机构：

里斯本大学理学院

创建时间：

2019-03-26

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，构建高质量标注语料库是推进关系抽取技术发展的关键。PGR语料库采用自动化流水线构建，首先通过PubMed API检索包含特定基因、人类表型与疾病关键词的摘要文本。随后运用命名实体识别工具MER和IHP分别标注基因与人类表型实体，其中MER基于HGNC基因词典与正则表达式优化，IHP则依托机器学习模型识别人类表型本体术语。最后，利用人类表型本体提供的已知关系文件，通过远程监督方法对同一句子内共现的实体对进行关系分类，生成已知或未知关系标签，从而形成包含1712篇摘要、4283组关系的银标准语料库。

特点

PGR语料库的显著特点在于其专注于人类表型与基因关系的抽取，填补了该领域公开标注资源的空白。语料库涵盖5676项人类表型标注与13835项基因标注，实体识别经过部分人工校验，达到87.01%的精确度，确保了标注可靠性。其采用银标准构建范式，平衡了自动化效率与标注质量，支持大规模文本挖掘需求。此外，语料库设计兼顾生物医学文本的复杂性，通过双重查询策略优化摘要相关性，并整合本体标识符以实现标准化实体链接，为深度学习模型提供了结构清晰、语义丰富的训练基础。

使用方法

PGR语料库适用于生物医学关系抽取任务的模型训练与评估。研究人员可直接使用其提供的标注摘要与关系数据，输入深度学习框架如BioBERT或BO-LSTM进行端到端关系分类。语料库中的已知与未知关系标签可用于监督学习，优化模型在复杂句式中的关系推理能力。同时，其实体标注支持命名实体识别任务的迁移学习，通过微调预训练模型提升领域适应性。语料库的标准化格式便于集成至文本挖掘流水线，辅助表型-基因关联发现、疾病机制解析等生物医学研究应用。

背景与挑战

背景概述

人类表型-基因关系是理解某些表型异常及其相关疾病起源的基础，生物医学文献作为这些关系最全面的来源，亟需关系抽取工具进行自动识别。然而，此类工具通常依赖于标注语料库，而此前尚无专门针对人类表型-基因关系的标注语料。为此，里斯本大学LASIGE研究团队的Diana Sousa等人于2020年创建了PhenotypeGene Relations (PGR)语料库，该语料库作为银标准语料，涵盖了1712篇摘要、5676个人类表型标注、13835个基因标注及4283个关系。通过采用命名实体识别工具自动构建，并经八位专家部分评估，其精确率达到87.01%。PGR语料库的发布填补了该领域数据资源的空白，为基于深度学习的生物医学关系抽取研究提供了重要支持，推动了表型-基因关联自动发现技术的发展。

当前挑战

在人类表型-基因关系抽取领域，核心挑战在于从复杂的生物医学文本中准确识别并关联表型与基因实体，这需要克服自然语言表达的多样性和专业性。具体而言，表型描述常具有高度变异性和上下文依赖性，使得命名实体识别成为难点，现有工具如IHP在表型抽取中仍存在遗漏或错误匹配。语料构建过程中，研究人员面临自动化标注的可靠性问题：尽管采用远程监督方法结合HPO知识库进行关系分类，但基因与表型的共现句可能不表达实际关联，导致噪声引入。此外，词典基础的基因识别工具MER在处理特殊字符或简写时易产生遗漏，需依赖正则表达式进行补充，而表型术语与HPO标识符的匹配亦存在偏差，部分标注需人工校验。这些挑战共同影响了语料库的召回率与整体质量，凸显了银标准语料在平衡自动化效率与标注精度方面的固有难度。

常用场景

经典使用场景

在生物医学文本挖掘领域，PhenotypeGene Relations (PGR) corpus 作为首个专注于人类表型-基因关系的银标准语料库，其经典应用场景在于为关系抽取任务提供高质量的标注数据。该语料库通过整合命名实体识别工具与人类表型本体知识，自动从PubMed摘要中提取并标注了数千条表型与基因实体及其关联关系，为深度学习模型如BioBERT和BO-LSTM的训练与评估奠定了坚实基础，显著推动了自动化知识发现的研究进程。

解决学术问题

PGR corpus 有效解决了生物医学文献挖掘中长期存在的标注数据稀缺问题，特别是针对人类表型与基因关系的专项语料缺失。通过银标准构建方法，该数据集以自动化流程生成大规模标注，缓解了人工标注所需的高昂成本与专业壁垒。其高精度标注（经评估达87.01%）为关系抽取模型提供了可靠监督信号，助力研究者突破数据瓶颈，深化对表型-基因互作机制的理解，并为疾病起源的文本挖掘研究开辟了新路径。

衍生相关工作

PGR corpus 的发布催生了多项经典衍生研究，其中最具代表性的是基于深度学习架构的关系抽取系统优化。例如，研究团队利用该语料库对BioBERT模型进行微调，实现了78.05%的关系抽取精度，显著超越了传统共现基线方法。同时，该数据集也启发了结合本体语义的BO-LSTM模型改进，以及面向多物种表型-基因关系挖掘的跨领域方法迁移，为生物文本挖掘社区的算法创新提供了关键数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集