MA-COIR

Name: MA-COIR
Creator: 日本理化研究所先进智能项目（RIKEN AIP）
Published: 2025-05-19 19:00:43
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/sl-633/macoir-master

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出了一种新的框架MA-COIR，用于识别文本中明确或隐含的生物医学概念。MA-COIR通过将每个概念分配一个语义搜索索引（ssID），并训练一个神经网络模型来预测输入文本中描述的概念对应的ssID，从而解决了传统概念识别方法的局限性。实验结果表明，MA-COIR在识别显式和隐式概念方面表现出色，无需在推理过程中进行提及级别的注释，从而推动了生物医学领域应用中的本体驱动概念识别。本文的数据集描述信息未提及，因此为空字符串。

提供机构：

日本理化研究所先进智能项目（RIKEN AIP）

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

MA-COIR数据集的构建采用了创新的索引-识别范式，通过为每个生物医学概念分配独特的语义搜索索引（ssID），将概念识别任务转化为生成式索引预测问题。研究团队基于SapBERT编码器构建概念向量表示，采用自上而下的层次聚类方法（K-means算法，g=10，m=10）生成具有语义信息的树状索引结构。为增强模型泛化能力，数据集整合了概念的标准名称、同义词、文本片段以及LLM生成的简化查询等多层次训练样本，并通过半监督方法挖掘文本片段与概念的语义关联。这种多粒度数据构建策略显著提升了模型对显式和隐式概念的识别能力。

特点

该数据集的核心特点体现在其突破性的语义索引架构和多元化的数据构成。通过语义搜索索引（ssID）系统，有效解决了生物医学本体中同名异义概念的分歧问题，如'H0IP_0004832: TNF signalling'被编码为'6-2-8-0-5'的索引序列。数据集涵盖CDR（化学药物）、HPO（人类表型）和HOIP（稳态失衡）三大生物医学场景，包含从文本片段到完整文献段落的多级查询结构。特别值得注意的是，数据集创新性地引入LLM生成的声明级查询和合成数据，在HOIP等低资源场景下展现出卓越的适应性，为复杂生物医学过程的识别提供了新的研究范式。

使用方法

使用该数据集时，研究者可采用端到端的生成式识别框架。基于BART架构的预训练模型通过微调学习将输入文本（文献段落、句子或片段）映射为ssID序列，经约束解码器过滤后输出有效概念索引。对于复杂文本，建议采用多层次处理策略：先通过LLM将文献分解为声明级查询，再整合各层级预测结果。实验表明，当k=1时模型在CDR和HPO数据集上分别达到47.6和60.0的F1值，而在HOIP场景下结合LLM生成的声明查询可使召回率提升至64.8。数据集特别适用于需要识别文本中隐式生物医学概念的知识图谱构建、本体优化等应用场景。

背景与挑战

背景概述

MA-COIR数据集由RIKEN AIP、筑波大学等机构的研究团队于2025年提出，旨在解决生物医学领域概念识别的核心问题。传统方法依赖显式提及识别，难以捕捉文本中未明确表述的复杂概念。该框架创新性地将概念识别重构为索引-识别任务，通过为概念分配语义搜索索引（ssID），有效解决本体条目中的歧义问题，并提升识别效率。研究团队采用基于BART的预训练模型，结合小规模数据集微调和LLM生成查询等技术，在CDR、HPO和HOIP三个典型场景中验证了其卓越性能，推动了本体驱动概念识别在生物医学领域的发展。

当前挑战

MA-COIR面临的主要挑战体现在两个维度：在领域问题层面，生物医学概念的抽象性和复杂性导致传统基于提及的方法失效，特别是当概念需要专业知识推断而非显式表述时；在构建过程层面，如何设计有效的语义索引体系以区分同名异义概念、平衡小样本微调与模型性能、以及利用LLM生成高质量训练数据均为关键难题。此外，模型对未见概念的泛化能力不足，且多级查询的质量差异会影响最终识别效果，这些都需要通过算法优化和数据增强策略进一步解决。

常用场景

经典使用场景

MA-COIR数据集在生物医学领域的概念识别任务中展现出卓越的性能，特别是在处理复杂且隐含的生物医学概念时。该数据集通过引入语义搜索索引（ssID）将概念识别任务转化为索引-识别范式，有效解决了传统方法在处理未明确提及的概念时的局限性。经典使用场景包括生物医学文献的自动化标注、知识图谱构建以及概念关系发现。

解决学术问题

MA-COIR数据集解决了生物医学概念识别中的多个关键学术问题。首先，它通过语义搜索索引消除了因概念名称相同而导致的歧义问题。其次，该数据集利用生成模型在低资源环境下进行概念识别，显著降低了对大规模标注数据的依赖。此外，MA-COIR能够识别文本中明确提及和隐含的生物医学概念，为生物医学信息提取和知识发现提供了新的研究思路。

衍生相关工作

MA-COIR数据集的提出激发了多项相关研究。例如，基于该数据集的语义搜索索引方法被扩展应用于其他领域的知识图谱构建任务。此外，许多研究借鉴了MA-COIR中生成模型与语义索引的结合方式，开发了新的低资源概念识别框架。这些衍生工作进一步推动了生物医学自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集