BioMaze
收藏github2025-03-02 更新2025-03-05 收录
下载链接:
https://github.com/zhao-ht/BioMaze
下载链接
链接失效反馈官方服务:
资源简介:
BioMaze是一个路径基准数据集,包含了5.1K个高质量的复杂生物路径问题,这些问题经过专家的精心策划和审核,涵盖了生物路径研究的各种情境,包括自然动态变化、干扰和干预、额外的干预条件以及单一因素、交互过程和宏观层面的多功能研究目标。
BioMaze is a pathway benchmark dataset containing 5.1K high-quality complex biological pathway problems. These problems have been meticulously curated and reviewed by domain experts, covering diverse scenarios in biological pathway research, including natural dynamic changes, disturbances and interventions, additional intervention conditions, as well as multifunctional research objectives related to single factors, interactive processes and macroscopic-level studies.
创建时间:
2025-02-24
原始信息汇总
BioMaze数据集概述
数据集简介
- 名称:BioMaze
- 目的:评估和增强大型语言模型在生物通路推理任务中的能力
- 研究领域:生物通路研究,包括功能理解、动态变化、调控和干预等关键领域
数据集内容
- 数据量:5.1K高质量、复杂的生物通路问题
- 数据来源:直接来源于真实研究文献
- 任务类型:
- 自然动态变化
- 干扰和干预
- 额外干预条件
- 多尺度研究目标(单因素、交互过程、宏观功能等)
- 质量保证:由专家精心策划和检查
数据集获取
- 下载地址:https://huggingface.co/datasets/haitengzhao/BioMaze
相关研究
- 论文:https://arxiv.org/pdf/2502.16660
- 创新方法:PathSeeker(一种新型LLM代理,通过基于子图的全局-局部导航在通路图中进行交互式推理)
评估方法
- 推理方法:
- Chain-of-Thought (CoT)
- Think on Graph (ToG)
- Chain of Knowledge (CoK)
- PathSeeker
- 支持模型:
- GPT-3.5
- Llama3.1等本地模型
环境配置
- Python版本:3.10
- CUDA版本:12.2
- 依赖安装: bash conda create -n env_pathway python=3.10 -y source activate env_pathway pip install numpy==1.26 pip install vllm==0.7.1 pip install -r requirements.txt vllm==0.7.1
数据资源
- 通路图语料库:https://drive.google.com/file/d/1wMG9CMDdX8eXrvBF3yssnYuEZwJMpBru/view?usp=sharing
搜集汇总
数据集介绍

构建方式
本研究为评估大型语言模型在生物通路推理任务上的理解和推理能力,构建了一个名为BioMaze的路径基准数据集。该数据集由5100个高质量、复杂的生物通路问题组成,这些问题直接源自实际的研究文献,经过专家的精心校对和审核,以涵盖生物通路研究的各种情境。
特点
BioMaze数据集的特点在于,它不仅包含了自然动态变化、干扰和干预等情境,还涉及单一因素、交互过程以及宏观功能等多尺度研究目标。此外,数据集支持多种推理方法,如Chain-of-Thought、Think on Graph以及PathSeeker,后者是一种新型的LLM代理,能够通过路径图中的子图进行全局-局部导航,以更好地利用路径数据库进行推理。
使用方法
使用BioMaze数据集时,用户需要先在本地机器上克隆仓库并安装必要的依赖。数据集支持多种语言模型,包括GPT-3.5和Llama3.1等,并提供了一系列脚本以方便用户进行模型评估和推理。用户可以根据需要选择不同的推理方法和模型,并通过提供的脚本进行分布式测试。
背景与挑战
背景概述
BioMaze数据集,旨在评估大型语言模型在生物学任务中的理解和推理能力,特别是在生物通路这一领域。该数据集由5.1K个高质量、复杂的生物通路问题组成,这些问题直接来源于实际的研究文献。该研究由专家精心策划和审核,以涵盖生物通路研究的各种背景,包括自然动态变化、干扰和干预、额外的干预条件以及单一因素、交互过程和宏观功能等多尺度研究目标。该数据集的论文于2025年2月21日发布在arxiv上,由Haiteng Zhao等研究人员完成,对相关领域产生了显著影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 如何确保数据集中的生物通路问题能够全面且准确地反映生物学领域的复杂性;2) 如何评估和提升大型语言模型在生物通路推理任务中的性能。此外,数据集在解决生物通路领域的领域问题时,也面临着如何有效利用生物通路数据库进行推理,以及如何设计新的推理方法来处理生物通路中的动态变化和干预的挑战。
常用场景
经典使用场景
在生物信息学领域,BioMaze数据集被设计来评估大型语言模型在生物学途径任务上的理解和推理能力。该数据集的经典使用场景是作为生物途径研究的一个基准,通过复杂的生物途径问题来测试模型的功能理解、动态变化、调节和干预等方面的能力。
衍生相关工作
基于BioMaze数据集,已经衍生出了一些相关工作,如PathSeeker方法,这是一种新型的LLM代理,它通过在途径图中的子图基础上进行全局-局部导航推理,以更好地利用途径数据库进行推理。这些相关工作进一步扩展了BioMaze数据集的应用范围,并推动了相关领域的研究进展。
数据集最近研究
最新研究方向
在生物信息学领域,BioMaze数据集的问世标志着大型语言模型在生物途径推理任务中的理解和推理能力评估迈出了重要一步。该数据集的构建旨在推进功能理解、动态变化、调控及干预等关键生物途径研究领域的应用。近期研究围绕此数据集,探索了多种模型推理策略,如Chain-of-Thought (CoT)、Think on Graph (ToG)、Chain of Knowledge (CoK)以及创新的PathSeeker方法,后者通过在生物途径图中的全局-局部导航实现了更高效的推理。这些研究不仅提升了模型对生物途径复杂问题的处理能力,也为生物医学研究提供了新的方法和工具,具有深远的影响和意义。
以上内容由遇见数据集搜集并总结生成



