HPO GSC+ corpus; HoIP Ontology
收藏arXiv2026-01-23 更新2026-01-27 收录
下载链接:
https://github.com/bio-ie-tool/hi-ald
下载链接
链接失效反馈官方服务:
资源简介:
HPO GSC+语料库由理化学研究所等机构创建,是一个专注于生物医学概念识别的研究数据集,包含228篇摘要,覆盖了人类表型本体(HPO)中约2.4%的HPA概念。数据集通过人工标注构建,旨在解决生物医学领域概念识别中的泛化问题,特别是在未见概念上的识别能力。该数据集的应用领域包括生物医学知识库构建和知识发现,支持下游应用如治疗创新。
The HPO GSC+ corpus was created by institutions including the RIKEN and other research organizations. It is a research dataset dedicated to biomedical concept recognition, containing 228 abstracts that cover approximately 2.4% of the HPA concepts within the Human Phenotype Ontology (HPO). Constructed through manual annotation, this dataset is designed to address the generalization challenge in biomedical concept recognition, particularly the ability to identify unseen concepts. Its application areas include biomedical knowledge base construction and knowledge discovery, supporting downstream applications such as therapeutic innovation.
提供机构:
理化学研究所·人工智能项目; 筑波大学; 京都大学; 理化学研究所·创新中心; 理化学研究所·生物资源中心; 大阪电通大学
创建时间:
2026-01-23
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称:HPA ALD 与 HoIP ALD
- 存储位置:
data/ald目录下的压缩文件 - 来源:基于LLM的自动标注流程构建
数据集统计信息
| 数据集 | 文本段落数量 | 概念标注总数 | 唯一概念数量 | 质量评级(平均) | 质量评级(良好) | 质量评级(优秀) |
|---|---|---|---|---|---|---|
| HPA ALD | 54301 | 197824 | 12725 | 25511 | 28758 | 32 |
| HoIP ALD | 34097 | 370461 | 15976 | 17781 | 16306 | 10 |
数据构建流程
- 流程概述:自动标注流程包含5个阶段,仅包含质量评级为“平均”、“良好”或“优秀”的实例。
- 主要步骤:
- 生成中间声明
- 从声明中提取候选概念名称
- 通过k近邻搜索将名称与本体术语进行语义匹配,形成初步候选概念列表
- 概念分类、重新标注和基于指南的过滤步骤
- 质量评估,符合要求的实例作为训练数据
概念标识符格式
- 概念ID为简化格式,例如
GO_0006954 - 可通过添加前缀
http://purl.obolibrary.org/obo/获取官方本体概念页面
相关索引构建(OSSI)
构建步骤
- 获取语义向量嵌入:使用Transformer模型(如SapBERT)对概念名称和同义词进行向量化
- 构建图结构:基于本体结构和语义相似性构建概念图
- 层次图分区:使用Louvain算法进行层次图分区
- 索引映射:将新索引映射到本体概念
目标概念统计
| 概念类型 | 概念数量 | 名称数量 | 同义词数量 |
|---|---|---|---|
| HPA | 18354 | 18354 | 21987 |
| HoIP | 29367 | 29367 | 87705 |
数据文件说明
concept_info.json:包含从本体获取的概念信息,格式为"concept_id": ["名称", "定义", "树路径列表", "同义词列表"]target_concept_id_list.json:目标概念ID列表
本体文件来源
- HoIP概念:使用Gene Ontology的
go-basic.json和HoIP本体的hoip_ontology.json - HPA概念:使用HPO的
hpa_ontology.json
索引映射文件
- 提供实验使用的映射文件,位于
data/search_index目录
搜集汇总
数据集介绍

构建方式
在生物医学概念识别领域,数据稀缺性长期制约着模型泛化能力的提升。HPO GSC+与HoIP Ontology数据集的构建,采用了创新的大语言模型自动标注流程。该流程首先通过检索PubMed摘要获取原始文本,随后运用多阶段处理机制:从文本生成中间主张,进而衍生候选概念名称,并通过语义匹配映射至本体术语。后续阶段引入概念分类、重标注、基于指南的过滤以及质量筛选等精细化模块,旨在提升标注的准确性与一致性。这一自动化流程显著扩展了概念覆盖范围,为模型训练提供了大规模且结构化的监督信号。
使用方法
该数据集主要用于训练和评估提及无关的生物医学概念识别模型。研究者可采用序列到序列生成架构,如基于BART的MA-COIR模型,直接学习从文本到层次化概念索引的映射。在评估阶段,除了传统的精确匹配指标(如微平均F1值),数据集配套的评估框架引入了未见概念召回导向的接近度与未见候选集大小两项新指标,用以量化模型在层次化空间中对未见概念的泛化能力与搜索空间缩减效果。数据集亦支持进行识别-重排序的流水线实验,验证上游模型预测对下游精化任务的实际效用。
背景与挑战
背景概述
HPO GSC+语料库与HoIP本体是生物医学概念识别领域的重要资源,旨在应对生物医学文献中概念表达的隐晦性与标注稀缺性挑战。该数据集由RIKEN AIP、筑波大学、京都大学等机构的研究团队于2024年构建,核心研究问题聚焦于无提及生物医学概念识别,即直接从文本段落中识别本体定义的概念,无需依赖中间提及跨度。这一任务设定更贴合生物医学论述的实际场景,其中大量概念通过逻辑蕴含或领域推理隐式表达,而非表面匹配。数据集的创建推动了生物医学知识库的自动化构建与维护,为下游应用如药物研发与知识发现提供了关键支撑。
当前挑战
该数据集面临的核心挑战体现在任务定义与构建过程两个层面。在任务层面,MA-BCR需解决模型对未见概念的泛化能力难题,由于手动标注数据仅覆盖生物医学本体中极小比例的概念,模型难以从有限标注中学习识别训练时未出现的概念。在构建层面,自动标注流程依赖大语言模型生成标注数据,但LLM在生成新颖、细粒度生物医学概念时存在显著局限性,导致标注质量与人工标准存在偏差。此外,标注错误可能在流程各阶段传播,后续过滤与重标注仅能部分缓解噪声,残余的噪声与段落级质量差异仍是影响模型性能的关键因素。
常用场景
经典使用场景
在生物医学信息抽取领域,HPO GSC+语料库与HoIP本体作为高质量标注资源,其经典应用场景聚焦于无提及生物医学概念识别任务。该数据集通过提供人类表型异常与稳态失衡过程的精确标注,为模型训练与评估构建了结构化基准。研究者利用其标注的抽象文本段落与本体概念映射关系,能够系统探究模型在识别隐含概念与泛化到未见概念方面的能力,尤其在处理生物医学文献中广泛存在的非显式表达现象时展现出独特价值。
解决学术问题
该数据集有效解决了生物医学概念识别中标注数据稀缺与概念覆盖不足的核心学术难题。通过提供基于本体结构的标注实例,它使得系统能够超越传统的表面匹配方法,学习从文本中直接推断本体概念的深层语义关联。其构建的评估框架与层次化索引机制,为量化模型对未见概念的泛化能力提供了可计算的方法论基础,显著推进了领域内对模型鲁棒性与可扩展性的理论认知。
实际应用
在实际应用层面,该数据集支撑的生物医学概念识别系统能够加速结构化知识库的构建与维护。通过自动化提取文献中的表型异常与生理过程概念,这些系统为药物研发、疾病机制研究和临床决策支持提供了高效的知识发现工具。其处理隐含概念的能力尤其适用于解读复杂的生物医学论述,辅助研究人员从海量文献中精准定位关键科学发现,从而缩短从基础研究到临床转化的周期。
数据集最近研究
最新研究方向
在生物医学概念识别领域,HPO GSC+语料库与HoIP本体作为关键资源,正推动着面向未见概念泛化能力的前沿探索。当前研究聚焦于构建无需提及标注的概念识别框架,以应对生物医学文本中概念隐式表达的普遍挑战。最新进展引入了基于大型语言模型的自动标注流程,通过层次化索引设计与新型评估指标,系统量化模型在未见概念上的泛化性能。这一方向不仅缓解了人工标注的稀缺性问题,更通过融合本体结构与语义信息,为模型提供了更广阔的概念覆盖与结构化知识,显著提升了在复杂生物医学本体如HPO与HoIP上的识别鲁棒性与应用潜力。
相关研究论文
- 1Better Generalizing to Unseen Concepts: An Evaluation Framework and An LLM-Based Auto-Labeled Pipeline for Biomedical Concept Recognition理化学研究所·人工智能项目; 筑波大学; 京都大学; 理化学研究所·创新中心; 理化学研究所·生物资源中心; 大阪电通大学 · 2026年
以上内容由遇见数据集搜集并总结生成



