Medical Verifiable Problems

github2025-01-04 更新2025-01-05 收录

下载链接：

https://github.com/FreedomIntelligence/HuatuoGPT-o1

下载链接

链接失效反馈

官方服务：

资源简介：

来自具有挑战性的医学考试的开源医学问题，配有真实答案。

Open-source medical questions sourced from challenging medical examinations, accompanied by authentic correct answers.

创建时间：

2024-12-22

原始信息汇总

HuatuoGPT-o1 数据集概述

数据集简介

HuatuoGPT-o1 是一个专注于医学复杂推理的大语言模型（LLM），旨在识别错误、探索替代策略并优化答案。该模型通过以下方式提升推理能力：

使用验证器指导复杂推理轨迹的搜索，用于微调大语言模型。
应用基于验证器的奖励进行强化学习（PPO），进一步增强复杂推理能力。

模型信息

模型访问：
- HuatuoGPT-o1-8B：基于 LLaMA-3.1-8B，支持英语。
- HuatuoGPT-o1-70B：基于 LLaMA-3.1-70B，支持英语。
- HuatuoGPT-o1-7B：基于 Qwen2.5-7B，支持英语和中文。
- HuatuoGPT-o1-72B：基于 Qwen2.5-72B，支持英语和中文。
部署：
- 可以使用 vllm 或 Sglang 等工具进行部署，或直接进行推理。
- 模型采用“先思考后回答”的方式，输出格式为：
  
  Thinking
  
  [推理过程]
  
  Final Response
  
  [输出]

数据信息

数据访问：
- Medical Verifiable Problems：来自具有挑战性的医学考试的开源医学问题，配有标准答案。
- SFT Data in Stage 1：使用 GPT-4o 生成的微调数据，包括复杂的思维链（Complex CoT）和输出（Response）。
数据构建：
- 提供脚本用于构建可验证问题和搜索推理路径。

训练信息

阶段 1：监督微调（SFT）：
- 在 8-GPU 设置上进行微调。
阶段 2：强化学习（RL）：
- 使用 trl 库进行 PPO 训练，需下载医学验证器作为奖励模型。

评估信息

使用 Sglang 部署模型并进行评估。
评估代码可用于测试大多数支持 Sglang 的模型。

引用

bibtex @misc{chen2024huatuogpto1medicalcomplexreasoning, title={HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs}, author={Junying Chen and Zhenyang Cai and Ke Ji and Xidong Wang and Wanlong Liu and Rongsheng Wang and Jianye Hou and Benyou Wang}, year={2024}, eprint={2412.18925}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.18925}, }

搜集汇总

数据集介绍

构建方式

Medical Verifiable Problems 数据集的构建过程主要依赖于从具有挑战性的医学考试中提取开放式医学问题，并结合真实答案进行配对。通过使用GPT-4o生成复杂的思维链（Complex CoT）和输出（Response），进一步丰富了数据集的内容。此外，数据集的构建还涉及脚本的使用，用于从多项选择题中构建可验证的医学问题，并搜索复杂的推理路径，以确保数据的多样性和深度。

使用方法

使用Medical Verifiable Problems数据集时，首先需要通过提供的脚本从多项选择题中构建可验证的医学问题，并搜索复杂的推理路径。随后，可以使用这些数据进行模型的监督微调（SFT）和强化学习（RL）训练。在训练过程中，模型会通过复杂的推理路径进行学习，并通过医学验证器进行奖励，以进一步提升其推理能力。最终，用户可以通过部署模型并进行推理，来验证和评估模型在医学复杂推理任务中的表现。

背景与挑战

背景概述

HuatuoGPT-o1数据集由FreedomIntelligence团队于2024年推出，旨在推动大型语言模型（LLMs）在医学复杂推理领域的应用。该数据集的核心研究问题是通过可验证的医学问题，结合专门的医学验证器，提升模型在医学推理中的表现。数据集包含从具有挑战性的医学考试中提取的开放式问题，并配以标准答案，用于模型的监督微调和强化学习。HuatuoGPT-o1的推出标志着医学人工智能领域在复杂推理任务上的重要进展，为医学诊断和治疗方案的优化提供了新的工具。

当前挑战

HuatuoGPT-o1数据集在构建和应用过程中面临多重挑战。首先，医学领域的复杂性和多样性要求数据集必须涵盖广泛的医学知识，且问题的设计需具备足够的深度和难度，以测试模型的高级推理能力。其次，数据集的构建依赖于高质量的医学考试题目和标准答案，这需要与医学专家紧密合作，确保数据的准确性和权威性。此外，模型的训练过程涉及复杂的强化学习算法，如何有效利用医学验证器进行奖励机制的设计，以引导模型生成更准确的推理路径，是另一个技术难点。这些挑战共同构成了HuatuoGPT-o1数据集在医学复杂推理领域中的核心难题。

常用场景

经典使用场景

在医学领域，HuatuoGPT-o1数据集被广泛应用于复杂的医学推理任务。通过结合可验证的医学问题和专门的医学验证器，该数据集能够帮助模型识别错误、探索替代策略并优化答案。其经典使用场景包括医学考试的模拟训练、临床决策支持系统的开发以及医学教育中的案例研究。

解决学术问题

HuatuoGPT-o1数据集解决了医学领域中复杂推理的挑战，特别是在处理开放性问题时，模型能够通过验证器引导的推理轨迹进行微调，并通过强化学习进一步优化推理能力。这不仅提升了模型在医学考试中的表现，还为医学研究提供了新的工具和方法，推动了医学人工智能的发展。

实际应用

在实际应用中，HuatuoGPT-o1数据集被用于开发智能医疗助手，帮助医生进行诊断和治疗方案的制定。其生成的复杂推理路径和验证机制能够为临床决策提供可靠的支持，减少误诊率并提高医疗效率。此外，该数据集还被用于医学教育，帮助学生通过模拟考试和案例分析提升临床推理能力。

数据集最近研究