Intelligent-Internet/II-Medical-Reasoning-SFT
收藏Hugging Face2025-07-03 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/Intelligent-Internet/II-Medical-Reasoning-SFT
下载链接
链接失效反馈官方服务:
资源简介:
II-Medical SFT是一个旨在支持大型语言模型在医疗推理任务上进行监督微调的 curated 数据集,它包含了多轮对话、临床案例场景和问答对,反映了现实世界中临床实践中的复杂推理过程。该数据集结合了自定义的合成数据生成管道和公开的医疗推理数据集,以确保数据的多样性和临床相关性。
II-Medical SFT is a curated dataset designed to support the supervised fine-tuning of large language models (LLMs) for medical reasoning tasks, comprising multi-turn dialogues, clinical case scenarios, and question-answer pairs that reflect the complex reasoning processes encountered in real-world clinical practice. It is built using a combination of a custom synthetic data generation pipeline and publicly available medical reasoning datasets, ensuring diversity and clinical relevance.
提供机构:
Intelligent-Internet
搜集汇总
数据集介绍

构建方式
该数据集融合了公开医学推理语料与自主合成数据两大来源。一方面,整合了包括GeneralThought-430K、Medical-R1-Distill-Data等在内的多个公开医学推理数据集,并系统收集了来自不同来源的R1推理轨迹,通过嵌入生成、K-means聚类与领域分类流水线,筛选出医学与生物学相关的高质量样本。另一方面,利用Qwen3-235B-A22B模型,基于MedMcQA、MedQA、PubmedQA及MedReason等权威医学问答数据集,为每条提示生成6至10个候选响应并仅保留正确结果,构建了约87万条合成医学问答对。此外,还从ApolloCorpus、ChatDoctor-HealthCareMagic-100k等语料中提取通用医学指令跟随数据,经GPT-4o自动评估后保留高分响应,最终汇集约220万条训练样本。
特点
该数据集涵盖多轮对话、临床案例与问答对,真实模拟了临床实践中复杂的推理过程,有助于模型在鉴别诊断、循证决策、医患沟通及指南依从性等关键能力上取得突破。其显著特点在于规模宏大、来源多元且质量严格把控:不仅融合了公开医学推理数据与自主合成数据,还通过N-gram与Jaccard相似度阈值进行响应去重,并采用8-gram与模糊去重两阶段方法进行数据净化,有效规避了与评估数据集之间的污染风险。整体上,该数据集兼具多样性与临床相关性,为医学推理大模型的监督微调提供了坚实支撑。
使用方法
该数据集以HuggingFace格式发布,包含单一训练分片,总量约2,197,741条样本,文件格式为Parquet,可通过HuggingFace Datasets库便捷加载。每条样本包含model、question、problem及messages字段,其中messages为角色与内容交替的多轮对话结构,适用于构建指令跟随与推理链生成任务。用户可直接使用datasets.load_dataset('Intelligent-Internet/II-Medical-Reasoning-SFT', split='train')进行调用,也可基于该数据集的对话格式,结合transformers库对基座大语言模型进行监督微调,以增强模型在医学领域的推理与应答能力。
背景与挑战
背景概述
在人工智能与临床医学深度融合的浪潮中,大语言模型在医学推理任务上的表现成为衡量其智能水平的关键标尺。由Intelligent-Internet团队于2025年构建的II-Medical-Reasoning-SFT数据集,旨在通过监督微调赋予模型鉴别诊断、循证决策及个性化治疗规划等核心临床能力。该数据集汇聚了超过219万条样本,融合了来自MedQA、PubMedQA等权威医学问答库及合成数据管线的多轮对话与病例场景,其设计思想深受认知科学中临床推理层次模型的启发。通过系统整合公开医学推理资源与大规模合成数据,该数据集为提升模型在复杂医疗情境下的逻辑连贯性与知识应用精度提供了关键训练基础,对推动医疗领域专用语言模型的发展具有里程碑式意义。
当前挑战
该数据集面临的核心挑战首先在于领域问题的复杂性:医学推理要求模型具备多步逻辑链、跨学科知识整合及不确定性管理能力,远超出传统自然语言处理任务的范畴。其次,构建过程中需克服多重技术障碍,包括从海量异构数据中精准筛选医学相关推理轨迹,这要求对200余万条样本进行领域聚类与标签校正;合成数据生成需依赖Qwen3-235B等大型模型进行多轮采样,并仅保留正确回答,对算力与质量验证提出极高要求;此外,数据去污染流程需结合N-gram与模糊匹配双重机制,以规避与评估集的重叠,保障基准测试的公正性。最终,数据集还需应对医学知识时效性与来源偏见等固有局限,确保持续迭代更新。
常用场景
经典使用场景
在医学人工智能领域,大型语言模型的推理能力是衡量其临床实用性的核心指标。II-Medical-Reasoning-SFT数据集专为监督微调而设计,其经典使用场景聚焦于培养模型在复杂临床情境下的多步推理能力。该数据集通过整合多轮对话、临床病例场景及问答对,模拟真实诊疗过程中的鉴别诊断、循证决策与治疗规划等关键环节,使模型能够习得从症状分析到治疗方案制定的完整推理链条,从而显著提升其在医疗问答、病例分析等任务中的表现。
解决学术问题
该数据集有效解决了当前医学大语言模型研究中两大核心痛点:一是缺乏覆盖多病种、多推理类型的细粒度训练数据,二是模型在复杂临床推理中容易产生逻辑断裂或偏离医学指南的问题。通过融合公开医学推理数据集与高质量合成数据,并经由严格的去污与过滤流程,II-Medical-Reasoning-SFT为学术界提供了一套兼具规模与专业性的基准资源。其意义在于推动了从简单问答向结构化医学推理的范式转变,为构建具备临床级推理能力的AI系统奠定了数据基础。
衍生相关工作
该数据集衍生了一系列具有影响力的研究工作,包括基于其训练数据开发的医学专用推理模型,以及围绕数据构建方法展开的消融实验与对比分析。例如,研究者利用其公开的R1推理轨迹与领域聚类技术,探索了如何通过合成数据蒸馏提升模型在罕见病诊断中的推理准确性。此外,该数据集还催生了针对医学推理评估基准的改进工作,推动了诸如MedReason等测试集的设计,并启发了后续将思维链与医学知识图谱结合的研究方向,成为连接数据构建与模型评估的重要枢纽。
以上内容由遇见数据集搜集并总结生成



