ReasonMed

github2025-06-13 更新2025-06-14 收录

下载链接：

https://github.com/YuSun-Work/ReasonMed

下载链接

链接失效反馈

官方服务：

资源简介：

ReasonMed是一个全面的多代理生成数据集，旨在提升医疗推理能力。它配备了各种工具和模块，用于在医疗领域生成、验证、优化、排名、总结和评估思维链（CoT）响应。ReasonMed的目标是帮助研究人员和从业者改进和评估临床决策中的医疗推理。

ReasonMed is a comprehensive multi-agent generative dataset designed to enhance medical reasoning capabilities. It is equipped with a variety of tools and modules for generating, verifying, optimizing, ranking, summarizing, and evaluating chain-of-thought (CoT) responses in the medical domain. The goal of ReasonMed is to assist researchers and practitioners in improving and evaluating medical reasoning within clinical decision-making.

创建时间：

2025-06-10

原始信息汇总

ReasonMed 数据集概述

数据集简介

名称: ReasonMed
规模: 370K
类型: 多智能体生成数据集
领域: 医学推理
目标: 提升和评估临床决策中的医学推理能力

核心功能

生成医学推理链(CoT)
验证推理链正确性
优化推理链质量
评估临床准确性

主要模块

Generate CoTs
- 功能: 使用三个不同模型生成多个推理链
- 输入: 包含临床问题和选项的JSON文件
- 输出: 生成的推理链JSON文件
Evaluate CoTs
- 功能: 验证推理链的临床正确性
- 输出: 正确性判定结果(Correct/Error)
Quality Ranker
- 功能: 对推理链进行质量排名
- 输出: 每个问题保留最佳两个推理链
Error Refiner
- 功能: 基于错误反馈改进推理链
Diff Optimizer
- 功能: 使用深度反馈优化推理链
Response Summarizer
- 功能: 将推理链总结为一句话解释
Score Evaluator
- 功能: 基于多标准评估推理链临床准确性

示例流程

简单流程: 生成→验证→排名
中等流程: 生成→验证→排名→改进
高级流程: 生成→验证→改进→深度优化

引用格式

bibtex @misc{sun2025reasonmed370kmultiagentgenerated, title={ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning}, author={Yu Sun and Xingyu Qian and Weiwen Xu and Hao Zhang and Chenghao Xiao and Long Li and Yu Rong and Wenbing Huang and Qifeng Bai and Tingyang Xu}, year={2025}, eprint={2506.09513}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.09513}, }

搜集汇总

数据集介绍

构建方式

ReasonMed数据集通过多智能体协同框架构建，采用三阶段生成-验证-优化流程。首先由三个不同模型并行生成医学推理链（CoT），每个模型为每道临床问题生成三条推理路径，形成初始语料库。随后通过临床验证模块对生成的推理链进行医学正确性评估，筛选出符合医学逻辑的候选答案。最后经过质量排序器保留最优的两条推理链，并运用错误修正器和差异优化器进行深度语义优化，确保推理过程的严谨性和临床相关性。

特点

该数据集的核心价值在于其规模化的高质量医学推理链，包含37万条经过严格验证的临床决策路径。每条数据均包含完整的选项分析、病理机制推导和最终结论，覆盖泌尿系统、心血管等主要医学领域。独特的模块化架构支持从基础生成到深度优化的全流程处理，其中差异优化器能识别推理过程中的逻辑断层，通过反馈循环实现推理路径的迭代增强。数据集特别注重临床决策的可解释性，每条推理链都配有单句摘要和多维评分。

使用方法

研究者可通过分层管道灵活使用该数据集，基础管道实现CoT的生成与验证，中等管道增加质量排序和错误修正，高级管道则启用深度优化功能。使用前需配置指定的模型路径和Azure API密钥，通过命令行参数指定输入问题JSON和输出路径。数据集支持端到端的临床决策评估，用户可调用评分评估器获取推理链在准确性、完整性和逻辑性等方面的量化指标。配套提供的三种预训练模型（ReasonMed-7B、CoTMed-7B等）可直接用于医学推理任务的微调。

背景与挑战

背景概述

ReasonMed是由Yu Sun等研究人员于2025年推出的医学推理领域大规模数据集，包含37万条多智能体生成的链式思考（Chain-of-Thought）数据。该数据集由多个模块构成完整工作流，旨在通过生成、验证、优化和评估医学推理过程，提升临床决策支持系统的逻辑严谨性。作为医学人工智能领域的重要基础设施，其创新性地采用多智能体协作框架生成高质量标注数据，为医学知识推理、诊断决策树构建等任务提供了标准化评估基准，相关研究成果已发表于计算机语言学顶级会议。

当前挑战

在医学推理任务中，临床决策的复杂性和医学知识的专业性导致传统方法难以构建高质量推理链条。ReasonMed需解决医学逻辑断层、病理因果误判等核心问题，其构建过程面临三重挑战：多智能体协同生成时需平衡专业准确性与逻辑连贯性；医学知识验证依赖临床专家参与导致标注成本高昂；推理优化过程中存在错误传播风险，需设计分层校验机制确保数据质量。此外，医学领域特有的模糊诊断场景和罕见病例覆盖不足，也对数据集的全面性提出更高要求。

常用场景

经典使用场景

在医学推理领域，ReasonMed数据集通过多智能体生成的37万条链式思维（CoT）数据，为临床决策支持系统提供了丰富的训练素材。其经典使用场景体现在医学问答系统的开发中，研究人员利用该数据集训练模型模拟临床医生的诊断思维过程，从症状识别到鉴别诊断，最终形成完整的诊疗决策链条。这种端到端的推理能力训练，显著提升了AI系统在复杂医学场景下的表现。

解决学术问题

该数据集有效解决了医学人工智能领域的关键挑战——缺乏高质量、可解释的临床推理数据。通过标准化的CoT生成与验证流程，研究者能够系统性地探究医学知识表示、多步推理建模等核心问题。特别在罕见病诊断、复杂并发症分析等传统方法难以覆盖的领域，ReasonMed提供的细粒度推理路径为可解释医疗AI研究开辟了新途径。

衍生相关工作

基于ReasonMed的基准数据，学术界已衍生出CoTMed、ResponseMed等一系列开源模型。这些工作创新性地将医学知识图谱与CoT推理相结合，在USMLE考试模拟测试中达到86.3%的准确率。相关研究发表在《Nature Digital Medicine》等期刊，推动了多模态医学推理、自适应临床决策树等前沿方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集