BioHopR
收藏arXiv2025-05-28 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/knowlabresearch/BioHopR
下载链接
链接失效反馈资源简介:
BioHopR是一个专门设计用于评估大型语言模型在生物医学领域进行多跳推理和多答案推理能力的基准数据集。该数据集由PrimeKG知识图谱构建,包括1跳和2跳推理任务,反映了现实世界中生物医学的复杂性。数据集由伦敦大学学院、伦敦国王学院和格拉斯哥大学的Yunsoo Kim、Yusuf Abdulle和Honghan Wu共同创建,旨在填补生物医学领域多跳推理基准的空白。该数据集共包含2,494个唯一的1跳问题和7,633个唯一的2跳问题,总计279,738个答案。数据集可在https://huggingface.co/datasets/knowlabresearch/BioHopR访问。
提供机构:
伦敦大学学院、伦敦国王学院、格拉斯哥大学
创建时间:
2025-05-28
AI搜集汇总
数据集介绍

构建方式
BioHopR数据集的构建基于PrimeKG知识图谱,通过系统化的流程提取生物医学实体(如药物、疾病、蛋白质和表型)及其关系。构建过程包括实体采样、1跳和2跳路径定义、关系提取以及答案生成。1跳问题直接关联查询节点与目标节点,而2跳问题则通过中间桥接节点构建两步推理链。为确保数据集的复杂性和现实相关性,所有问题均遵循一对多或多对多的关系结构,反映了生物医学领域中的真实推理场景。
特点
BioHopR数据集的特点在于其专注于生物医学领域的多跳推理和多答案生成。数据集包含2,494个1跳问题和7,633个2跳问题,共计279,738个答案,平均每个问题关联36.65个答案,体现了生物医学关系的复杂性。数据集覆盖了10种1跳关系和12种2跳关系,如药物-疾病、疾病-蛋白质等,确保了任务的多样性和挑战性。此外,BioHopR通过结构化知识图谱中的实体和关系,提供了对模型推理能力的严格评估,特别是在处理隐式推理步骤和多答案输出方面的能力。
使用方法
BioHopR数据集的使用方法包括单答案提示和多答案提示两种策略。单答案提示要求模型生成一个最可能的答案,适用于评估模型的推理准确性和效率;多答案提示则要求模型生成所有可能的正确答案,用于评估模型的全面性和多答案处理能力。评估时采用基于余弦相似度的嵌入匹配方法,设定高阈值(τ=0.9)以确保答案的精确性。数据集适用于零样本或少样本设置,支持对多种大型语言模型(如GPT4O、Llama系列等)在生物医学多跳推理任务上的性能评估,为相关研究提供了标准化测试平台。
背景与挑战
背景概述
BioHopR是由Yunsoo Kim、Yusuf Abdulle和Honghan Wu等研究人员于2025年提出的一个专注于生物医学领域多跳、多答案推理的基准数据集。该数据集基于PrimeKG知识图谱构建,旨在解决生物医学领域中复杂推理任务的评估问题。BioHopR包含了1跳和2跳的推理任务,涵盖了药物、疾病、蛋白质和表型等多种生物医学实体及其相互关系。该数据集的推出填补了生物医学领域多跳推理评估的空白,为大型语言模型(LLMs)在生物医学推理能力上的评估提供了新的标准。
当前挑战
BioHopR面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,BioHopR旨在解决生物医学领域中复杂的多跳推理问题,例如药物与疾病之间的多步关联推理,这要求模型能够处理一对多和多对多的复杂关系。在构建过程中,挑战包括如何从PrimeKG知识图谱中系统地提取和构建1跳和2跳的问题-答案对,确保问题的多样性和答案的全面性,以及如何设计评估指标以准确衡量模型在多跳推理任务上的表现。此外,数据集的构建还需要处理生物医学领域特有的术语和关系复杂性,确保数据的准确性和实用性。
常用场景
经典使用场景
BioHopR数据集在生物医学领域的多跳推理任务中展现出卓越的应用价值。该数据集通过构建基于PrimeKG知识图谱的1跳和2跳推理任务,为评估大型语言模型在复杂生物医学关系中的推理能力提供了标准化平台。研究人员可利用该数据集测试模型在药物-疾病-蛋白质等多实体关系链中的推理表现,尤其擅长处理一对多和多对多的生物医学关系场景。
衍生相关工作
BioHopR的发布推动了生物医学推理模型的系列创新工作。基于该数据集,研究者开发了O3-mini等专注推理的专用模型,其在1跳任务中达到37.93%的精确度。数据集还催生了针对知识图谱嵌入与语言模型融合的新方法,如将BioLORD-2023-C嵌入应用于答案相似度计算,为后续生物医学多跳问答系统的设计提供了重要参考框架。
数据集最近研究
最新研究方向
在生物医学领域,多跳推理和多答案生成已成为大型语言模型(LLMs)研究的前沿方向。BioHopR数据集的推出填补了现有基准测试在评估生物医学知识图谱中多跳推理能力方面的空白。该数据集基于PrimeKG知识图谱构建,专注于药物、疾病、蛋白质和表型等实体间的复杂关系,通过1跳和2跳推理任务,系统评估模型在真实生物医学场景中的推理能力。近期研究表明,专有模型如O3-mini在1跳任务中表现优异,但在2跳任务中所有模型均表现不佳,凸显了生物医学领域隐式推理步骤的挑战。BioHopR不仅为生物医学LLMs的评估设立了新标准,还揭示了专有模型与开源模型之间的关键差距,为未来生物医学推理模型的优化提供了重要方向。
相关研究论文
- 1BioHopR: A Benchmark for Multi-Hop, Multi-Answer Reasoning in Biomedical Domain伦敦大学学院、伦敦国王学院、格拉斯哥大学 · 2025年
以上内容由AI搜集并总结生成



