MedHopQA
收藏arXiv2026-05-12 更新2026-05-14 收录
下载链接:
https://www.ncbi.nlm.nih.gov/research/bionlp/medhopqa
下载链接
链接失效反馈官方服务:
资源简介:
MedHopQA数据集是由BioCreative IX挑战赛组织者构建的一个专注于生物医学多跳问答的基准资源,旨在推动大型语言模型在复杂推理任务上的发展。该数据集包含1000个精心设计的问答对,特别侧重于罕见疾病、基因和化学物质领域,每个问题均需通过整合两个独立维基百科页面的信息进行两跳推理才能解答。数据集的构建过程基于公开的维基百科内容,通过人工筛选和组合相关实体知识形成具有挑战性的多步问题,并辅以临床同义词词典和概念级评估策略来提升答案判定的语义准确性。该数据集主要应用于生物医学信息检索与合成、临床决策支持以及人工智能辅助研究等领域,核心目标是解决真实场景中分散证据的集成与组合推理难题,从而推动更可靠、可解释的医疗人工智能系统的进步。
提供机构:
美国国立卫生研究院·国家医学图书馆; 伊利诺伊大学厄巴纳-香槟分校; 高丽大学; 越南国立大学·河内科技大学; 康考迪亚大学; 俄罗斯生物医学化学研究所; 里斯本大学·理学院信息学系·LASIGE实验室; 开罗大学·工程学院计算机工程系; 查尔斯·达尔文大学·孟席斯健康研究学院; CaresAI
创建时间:
2026-05-12
搜集汇总
数据集介绍

构建方式
在生物医学领域,多跳问答任务要求系统整合分散于多篇文献中的信息以回答复杂问题,这是当前大语言模型面临的核心挑战之一。MedHopQA数据集正是为此而生,由BioCreative IX挑战赛专门构建。该数据集包含1,000个精心设计的问题-答案对,覆盖疾病、基因和化学物质等关键生物医学实体,尤其聚焦于罕见病。每个问题均被构造为需要两跳推理,即通过整合来自两个不同维基百科页面的信息来得出答案。数据集中的答案包括实体名称和是非判断两种类型,并嵌入在一个包含10,000个问题的更大集合中,以支持公平且稳健的评估。
使用方法
对于MedHopQA数据集的使用,研究者需构建能够进行多跳推理的问答系统。推荐采用检索增强生成(RAG)架构,即先通过查询分解生成子问题,再借助维基百科等知识库进行多步检索,最终综合证据生成答案。官方提供的基准方案采用零样本GPT-4o模型,提示词设置为精确简短回答。参与者的实践表明,成功的策略包括将问题分解为子查询、结合BM25与稠密检索的混合检索、以及引入推理模型的决策机制。数据集可通过Codabench平台获取,提交预测结果后,系统会使用词法匹配与MedCPT概念级指标进行双重评估,后者能识别语义等价的变体答案。
背景与挑战
背景概述
MedHopQA数据集由美国国立医学图书馆(NLM)的Zhiyong Lu团队于2025年创建,作为BioCreative IX共享任务的一部分,旨在解决生物医学领域多跳问答(multi-hop QA)这一前沿难题。该数据集包含1000个精心构建的问题-答案对,覆盖疾病、基因和化学物质,尤其聚焦罕见病。每个问题要求系统整合来自两个不同维基百科页面的信息,完成两跳推理,以评估大语言模型(LLM)在复杂生物医学推理任务中的能力。该数据集的提出标志着从传统的离散信息提取向信息综合与推理的范式转变,对推动生物医学文本挖掘和临床决策支持系统的进步具有重要意义。
当前挑战
生物医学领域多跳问答面临的核心挑战在于系统需跨越多个信息源进行组合推理,而MedHopQA数据集设计用于评估此能力。构建过程中,难题包括确保问题的多跳性和医学相关性,并为每个答案手工编制临床同义词库以应对概念级等价评估。当前挑战主要体现在:数值问题、染色体定位等类别准确率极低(平均仅22.5%和47.2%),模型在归一化精度和格式化输出上频繁失误;近1.6%的问题未被任何系统解决,凸显了在细粒度概念匹配与推理链完整性上的显著瓶颈。
常用场景
经典使用场景
在生物医学自然语言处理领域,MedHopQA数据集最经典的使用场景是作为多跳医学问答系统的基准测试平台。该数据集精心构建了1000个需要跨两个不同维基百科页面进行信息整合才能回答的高难度问题,涵盖疾病、基因与化学物质等核心生物医学实体,尤其聚焦于罕见病领域。研究者可以借助该数据集,系统性地评估大规模语言模型在复杂推理任务中的表现,特别是其能否将分散在多个来源中的关键证据进行有效链接与综合,从而完成需要两步乃至多步推理的问答挑战。这一场景为衡量模型在真实生物医学信息需求下的推理能力提供了标准化、可复现的评价框架。
解决学术问题
MedHopQA数据集有效解决了生物医学问答研究中长期存在的多跳推理评估缺失问题。传统基准如PubMedQA、MedQA多基于单篇摘要或单步事实查找设计,难以反映临床实践中需要跨文档、跨实体类型整合证据的真实需求。该数据集通过明确要求系统执行多步推理,填补了生物医学领域缺乏结构化多跳推理评估资源的空白。其概念级评估机制(MedCPT)更是攻克了词面匹配无法处理同义但不同形答案的难题,提升了评估的语义保真度。这一工作的发布推动了领域从信息抽取向信息综合与推理的范式转变,为研究界考察大模型在医学场景下的推理可靠性提供了关键工具。
实际应用
在实际应用层面,MedHopQA数据集所评估的能力直接转化为临床决策支持与精准医学中的关键技术支撑。例如,当临床医生需要解答“某基因变异是否影响特定药物疗效”这类复杂问题时,系统需依次链接变异-基因、基因-蛋白、蛋白-药物作用机制等多重关系。MedHopQA所验证的检索增强生成与多步推理管线,正可部署于药物重定位、罕见病诊断辅助等场景,帮助从业者高效整合来自文献、数据库与临床指南的碎片化证据。此外,该数据集的评估框架也被应用于构建可解释的医学问答助手,助力提升大型语言模型在实际医疗环境中的答案准确性与安全性。
数据集最近研究
最新研究方向
在生物医学领域,多跳问答(Multi-hop QA)正成为大语言模型(LLM)能力验证的前沿焦点。以BioCreative IX推出的MedHopQA数据集为代表,该资源聚焦于疾病、基因与化学物之间的复杂推理,尤其强调罕见病知识的多源整合。与依赖单次检索的传统基准不同,MedHopQA要求系统跨两个维基百科页面进行两跳推理,从而更贴近真实临床决策中的信息合成需求。围绕该数据集,近期涌现出检索增强生成(RAG)、智能体规划、查询分解与概念级语义评估等创新策略。研究表明,结合高阶模型与多源检索管线的系统在MedCPT指标上可达89%以上F1分数,而数值与染色体定位问题依然构成性能瓶颈。该基准的开放将持续推动可解释、高鲁棒性的医学推理系统发展。
相关研究论文
- 1Overview of the MedHopQA track at BioCreative IX: track description, participation and evaluation of systems for multi-hop medical question answering美国国立卫生研究院·国家医学图书馆; 伊利诺伊大学厄巴纳-香槟分校; 高丽大学; 越南国立大学·河内科技大学; 康考迪亚大学; 俄罗斯生物医学化学研究所; 里斯本大学·理学院信息学系·LASIGE实验室; 开罗大学·工程学院计算机工程系; 查尔斯·达尔文大学·孟席斯健康研究学院; CaresAI · 2026年
以上内容由遇见数据集搜集并总结生成



