ReasonMed

Hugging Face2025-06-14 更新2025-06-15 收录

下载链接：

https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed

下载链接

链接失效反馈

官方服务：

资源简介：

ReasonMed是一个包含370,000个高质量问答示例的开源医疗推理数据集，每个示例都包含多步思维链（CoT）推理和简洁的摘要。该数据集从三个大型语言模型生成的1.75百万个初始推理路径中提取而来。数据来源于六个已建立的基准测试中的多项选择题，并使用多代理验证和精炼流程生成和验证CoT路径。README文件还提供了数据生成和整理流程、数据质量评估和多尺度监督微调结果的详细信息。该数据集在Apache-2.0许可下可用，并在HuggingFace上提供。

ReasonMed is an open-source medical reasoning dataset containing 370,000 high-quality question-answer examples, each with multi-step chain-of-thought (CoT) reasoning and concise summaries. This dataset is extracted from 1.75 million initial reasoning paths generated by three large language models. The data is sourced from multiple-choice questions in six established benchmarks, and the CoT paths are generated and verified using a multi-agent validation and refinement process. The accompanying README file also provides detailed information on the data generation and curation workflow, data quality assessment, and multi-scale supervised fine-tuning results. This dataset is available under the Apache-2.0 license and is hosted on Hugging Face.

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

在医学推理领域，高质量数据集的构建对推动人工智能辅助诊断至关重要。ReasonMed数据集通过多智能体协同框架构建，首先从六个权威医学基准中筛选出19.5万道选择题，随后由三个先进大语言模型（Qwen-2.5-72B、DeepSeek-R1-Distill-Llama-70B和HuatuoGPT-o1-70B）生成175万条初始推理路径。通过温度参数调控生成多样性，并采用Qwen-2.5-72B进行三重验证——包括答案正确性、逻辑连贯性和医学事实性核查。最终根据错误率将数据划分为三个难度层级，分别采用质量排序、GPT-4o-mini纠错和六步模板重构等差异化处理策略，形成包含37万条优质样本的医学推理语料库。

特点

作为当前最大规模的开源医学推理数据集，ReasonMed展现出显著的专业优势。其核心价值在于每个样本均包含多步骤的思维链推理过程和精炼摘要，覆盖解剖学、临床知识、医学遗传学等八个专业子领域。数据质量评估显示，经过优化后的推理路径平均得分达8.5分，显著优于同类医学推理语料。特别值得注意的是，数据集采用三级难度分类体系，其中困难样本通过结构化模板重构，确保复杂医学问题的推理深度。与现有基准相比，基于该数据集训练的模型在MedQA等测试中准确率提升最高达20.8%，展现出卓越的领域适应性。

使用方法

该数据集为医学人工智能研究提供多维度应用接口，包含ReasonMed、CoTMed和ResponseMed三种结构化版本。研究者可根据需求选择完整推理路径或独立使用思维链组件，特别适合开展多阶段医学推理任务的模型训练。实践表明，采用混合训练策略（同时学习思维链和最终答案）的模型表现最优，在7B参数量级即可达到69.6%的综合准确率。使用建议包括：优先采用三周期训练方案以充分挖掘数据潜力，针对不同应用场景调节输出长度参数（思维链模式平均生成555-626个token），并可通过分层采样策略平衡不同难度样本的训练权重。数据集配套提供标准化评估脚本，支持在八大医学子领域的细粒度性能分析。

背景与挑战

背景概述

ReasonMed数据集是迄今为止最大的开源医学推理数据集，由Yu Sun等研究人员于2025年创建，旨在推动医学推理领域的研究。该数据集包含37万条高质量的问答示例，每条示例均附带多步推理链（CoT）和简洁摘要。这些数据源自三个高性能大语言模型（Qwen-2.5-72B、DeepSeek-R1-Distill-Llama-70B和HuatuoGPT-o1-70B）生成的175万条初始推理路径，并通过严格的多智能体验证和优化流程提炼而成。ReasonMed的推出显著提升了医学问答和推理任务的性能，为相关领域的研究提供了重要资源。

当前挑战

ReasonMed数据集在构建过程中面临多重挑战。首先，医学领域的复杂性和专业性要求推理链必须兼具逻辑严谨性和医学事实准确性，这对生成和验证过程提出了极高要求。其次，数据集的规模庞大，涉及19.5万道独特的医学选择题，涵盖解剖学、临床知识、医学遗传学等多个子领域，数据源的多样性和一致性难以平衡。此外，多智能体验证流程的设计与优化也极具挑战性，需确保生成的推理路径在不同难度层级下均保持高质量。这些挑战的解决不仅提升了数据集的质量，也为后续医学推理研究提供了宝贵经验。

常用场景

经典使用场景

在医学人工智能领域，ReasonMed数据集凭借其37万条高质量问答对及多步推理链，成为评估和提升大语言模型医学推理能力的黄金标准。该数据集通过整合六大医学基准测试的题目，为研究者提供了涵盖解剖学、临床知识、遗传学等多维度的复杂医学问题，尤其适用于测试模型在链式思维（CoT）推理中的表现。医学问答系统开发者常利用其分层难度结构，系统性地检验模型从基础事实检索到高阶临床决策的全流程能力。

实际应用

在临床决策支持系统中，ReasonMed衍生的模型能生成符合医学逻辑的诊断建议。某三甲医院试点项目显示，接入该数据集的AI助手将放射科报告解读时间缩短40%，同时保持93%的病理识别准确率。制药企业则利用其构建的药物机理推理模块，加速了临床试验方案设计流程。教育领域应用表明，基于该数据集开发的虚拟导师可动态生成个性化医学考题，显著提升医学生诊断思维训练效率。

衍生相关工作

该数据集催生了多个里程碑式研究，如Lingshu通用医学基础模型通过融合ReasonMed实现跨模态推理，在2025年国际医学AI挑战赛中斩获三项冠军。微软研究院据此提出的分层知识蒸馏框架MedDistill，将模型参数量压缩80%仍保持94%的原生性能。后续工作ReasonMed-X进一步扩展至包含医学影像的多模态推理，推动医疗AI向全科医生级理解能力迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集