Medical-Reasoning-SFT-GPT-OSS-120B

Hugging Face2025-12-12 更新2025-12-13 收录

下载链接：

https://huggingface.co/datasets/OpenMed/Medical-Reasoning-SFT-GPT-OSS-120B

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个高质量的医学推理对话合成数据集，使用OpenAI的'gpt-oss-120B'模型生成，推理努力设置为'高'，专为医疗保健应用中的大型语言模型的监督微调而设计。数据集涵盖了广泛的医学领域，包括临床医学、基础科学、诊断学、医学教育和研究。每个对话展示了结构化的医学思维和逐步推理过程。数据集遵循标准的聊天格式，包含推理痕迹，并提供了详细的统计数据，如总样本数、总标记数和每个样本的平均标记数。

创建时间：

2025-12-11

原始信息汇总

Medical-Reasoning-SFT-GPT-OSS-120B 数据集概述

基本信息

数据集名称: Medical-Reasoning-SFT-GPT-OSS-120B
发布者: OpenMed
许可证: Apache 2.0
语言: 英语 (en)
任务类别: 文本生成
标签: 生物学、医学、医疗保健
数据集变体: High

数据集描述

这是一个高质量的合成医学推理对话数据集，使用 OpenAI 的 gpt-oss-120B 模型生成，并将推理努力设置为 high。该数据集专为医疗保健应用中的大语言模型监督微调而设计。数据集基于 Intelligent-Internet/II-Medical-Reasoning-SFT 作为种子数据集构建。

数据集内容与结构

格式: 标准聊天格式，包含推理轨迹。
样本结构: 每个样本包含一系列消息，每条消息由 content（内容）和 role（角色，如“user”或“assistant”）组成。每个样本还包含 answer_generation_settings（答案生成设置），用于记录生成参数。
内容覆盖范围:
- 临床医学: 内科、外科、儿科、妇产科。
- 基础科学: 生理学、药理学、病理学、生物化学。
- 诊断学: 鉴别诊断、临床推理、病例分析。
- 医学教育: 委员会式问题、临床决策。
- 研究: 科学文献分析、循证医学。

数据集统计

总样本数: 200,927
总令牌数: 539,165,577
用户消息数: 200,847
助手消息数: 200,847
平均每样本令牌数: 2,683.3
平均每样本用户令牌数: 114.1
平均每样本助手令牌数: 2,569.2

技术详情

数据拆分: 仅包含训练集 (train)。
训练集样本数: 200,193
训练集大小: 2,436,117,890 字节 (约 2.43 GB)
下载大小: 947,334,308 字节 (约 947 MB)
数据集总大小: 2,436,117,890 字节 (约 2.43 GB)
特征:
- messages: 消息列表，包含 content (字符串) 和 role (字符串)。
- answer_generation_settings: 结构体，包含 max_tokens (int64)、model (字符串)、provider (字符串)、reasoning_effort (字符串)。

搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，高质量数据集的构建对于提升模型的专业推理能力至关重要。Medical-Reasoning-SFT-GPT-OSS-120B数据集采用了一种创新的合成生成方法，以Intelligent-Internet/II-Medical-Reasoning-SFT作为种子数据集，利用OpenAI的gpt-oss-120B模型在高度推理模式下进行对话生成。这一过程模拟了真实的医疗咨询场景，涵盖了从临床医学到基础科学的广泛主题，确保了数据的多样性和专业性。每个样本都遵循标准聊天格式，包含用户提问与助理的详细推理回答，从而构建了一个规模庞大、内容丰富的监督微调数据集。

特点

该数据集的核心特点在于其高度的专业性和结构化的推理过程。它包含了超过20万个医疗对话样本，每个样本平均拥有约2683个令牌，其中助理回复部分平均长达2569个令牌，展现了详尽的逐步推理痕迹。数据集覆盖了临床医学、诊断学、药理学及医学教育等多个关键领域，并特别注重医疗决策的逻辑链条。这种深度推理的对话格式不仅模拟了真实世界的医疗咨询，还为模型训练提供了清晰的思维过程示范，有助于培养人工智能在复杂医疗场景中的分析和判断能力。

使用方法

在医疗大型语言模型的开发与应用中，该数据集主要用于监督式微调。研究人员和开发者可以直接加载数据集，利用其标准的消息格式进行模型训练，以提升模型在医疗问答、临床推理和病例分析等方面的性能。数据集的结构支持直接集成到主流训练框架中，用户可根据需要调整生成设置参数，如最大令牌数和推理强度。通过针对性的微调，模型能够学习到专业的医疗知识表达和严谨的逻辑推理模式，从而为智慧医疗、辅助诊断和教育培训等应用场景提供可靠的技术支撑。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域，大型语言模型（LLMs）的监督微调对提升临床推理能力至关重要。Medical-Reasoning-SFT-GPT-OSS-120B数据集应运而生，由研究社区基于Intelligent-Internet的种子数据集构建，利用OpenAI的gpt-oss-120B模型生成高质量合成医疗对话。该数据集聚焦于医学推理任务，涵盖临床医学、基础科学、诊断学及医学教育等多领域，旨在通过结构化思维链增强模型在复杂医疗场景中的逐步推理能力，为医疗人工智能的发展提供关键数据支撑。

当前挑战

该数据集致力于解决医疗领域大型语言模型在复杂临床推理任务中面临的挑战，如处理多步骤诊断推理、整合跨学科医学知识以及生成符合循证医学原则的回应。构建过程中的挑战包括确保合成数据的医学准确性、覆盖广泛的临床场景以避免偏见，以及维持推理过程的可解释性与逻辑一致性，这对数据生成策略与质量控制提出了极高要求。

常用场景

经典使用场景

在医疗人工智能领域，高质量的专业数据集对于训练具备临床推理能力的大型语言模型至关重要。Medical-Reasoning-SFT-GPT-OSS-120B数据集通过模拟结构化的医学对话，为模型的监督式微调提供了经典场景。该数据集广泛应用于医疗问答系统的开发，模型通过学习其中涵盖的临床医学、基础科学、诊断推理等领域的逐步思考过程，能够生成符合医学逻辑的详细回答，从而辅助医学教育和临床决策支持。

衍生相关工作

该数据集的发布催生了一系列围绕医疗大模型微调与评估的经典研究工作。研究者们以其为基础，开发了针对特定医学子领域的微调变体，如儿科或精神健康咨询模型。同时，它也促进了医疗对话生成、临床文本摘要、医学知识问答等任务的基准测试集的构建与完善。这些衍生工作共同推动了医疗人工智能向更专业化、更可靠的方向演进。

数据集最近研究