fully-open-meditron

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/EPFLiGHT/fully-open-meditron

下载链接

链接失效反馈

官方服务：

资源简介：

Fully Open Meditron Corpus 是一个专为医疗大语言模型设计的临床医生审核训练语料库，旨在支持临床决策支持和医疗问答任务的监督微调。该语料库整合了八个公开医疗问答数据集的聚合数据以及三个经过临床医生审核的合成组件，总共包含约601,346个样本（约1.5亿词元），并确保数据来源、生成提示和去污染过程的完全透明。核心组件包括：1) curated_qa（216,546个样本），来自MedQA、MedMCQA、PubMedQA等公开医疗QA数据集的训练分割，已归一化为（系统、用户、助手）对话格式；2) synthetic_curated_qa（214,654个样本），由gpt-oss-120b生成的新型考试风格问答，基于精选池种子生成，并按问题类型分层以监控答案位置偏差；3) guidelines_qa（145,681个样本），基于来自16个全球机构的46,469份临床实践指南的问答；4) synthetic_moove（24,465个样本），基于专家编写的临床案例库生成的开放式临床案例提示，旨在引发复杂诊断推理。默认配置为这四个组件的拼接。数据采用统一模式，包含唯一标识符、OpenAI风格对话消息列表、来源组件、是否为合成数据标志、教师模型、原始数据集名称、多项选择黄金答案字母和文本、教师预测匹配标志以及重采样尝试次数。构建过程涉及数据聚合、临床医生审核的合成生成（由四名医生小组审核生成提示模板）以及幻觉缓解（通过重采样确保预测答案与黄金标签匹配）。合成组件以CC BY-NC 4.0许可证发布供研究使用，而curated_qa组件作为衍生聚合数据保留其原始数据集许可证。该语料库仅用于研究目的，包括可重复性、审核和医疗大语言模型的红队测试，不应替代临床判断或未经独立安全评估直接部署。

创建时间：

2026-05-08

原始信息汇总

数据集概述：Fully Open Meditron Corpus

基本信息

数据集名称: Fully Open Meditron Corpus
许可证: CC BY-NC 4.0（合成组件）；原始数据集各保留其原有许可证（curated_qa 组件）
语言: 英语
任务类型: 问答、文本生成
数据规模: 约 601k 样本（约 1.5 亿 tokens），属于 100K–1M 范围
标签: 医疗、临床、医疗保健、大型语言模型、监督微调

数据集描述

这是一个经过临床医生审核的医学大型语言模型训练语料库，伴随论文《Fully Open Meditron: An Auditable Pipeline for Clinical LLMs》发布。该语料库结合了八个聚合的公共医学问答数据集与三个经临床医生审核的合成组件，旨在支持用于临床决策支持和医学问答的大型语言模型的监督微调，并提供数据来源、生成提示和去污染过程的完全透明性。

数据组件

数据集包含四个子组件，可通过加载不同的 config 名称访问：

组件名称	样本数量	描述
`curated_qa`	216,546	聚合的公共医学问答训练集（MedQA、MedMCQA、PubMedQA、MedExpQA、HealthSearchQA、LiveQA、AfriMed-QA v1/v2），归一化为 `(system, user, assistant)` 对话格式。系统级去污染移除了 173 项。
`synthetic_curated_qa`	214,654	由 gpt-oss-120b 生成的新的考试式问答，从 curated 池中种子化，按问题类型分层，并持续监测答案位置以防止标签偏差。
`guidelines_qa`	145,681	基于来自 16 个全球机构的 46,469 份临床实践指南的问答。
`synthetic_moove`	24,465	开放式的临床小场景提示，种子化自专家编写的小场景池，旨在引发复杂的诊断推理。
总计	601,346	默认配置（`default`）串联所有四个组件。

数据模式

每条记录包含以下字段：

字段	类型	描述
`id`	字符串	唯一标识符
`messages`	列表（包含 `role` 和 `content`）	对话，采用 OpenAI 风格格式，角色包括 `system`、`user`、`assistant`
`source_component`	字符串	来源组件名称：`curated_qa`、`synthetic_curated_qa`、`guidelines_qa`、`synthetic_moove` 之一
`is_synthetic`	布尔值	该行是否由 LLM 教师生成
`teacher_model`	字符串	用于生成的教师模型（`gpt-oss-120b`）或 `null`（对于原始条目）
`source_dataset`	字符串	原始公共数据集名称（仅 `curated_qa` 行）
`gold_label`	字符串	多项选择题的金标准答案字母（如适用）
`label_text`	字符串	多项选择题的金标准答案文本（如适用）
`exact_match`	布尔值	教师预测是否在拒绝采样后匹配金标准标签
`try_count`	整数	所需的重新采样尝试次数（1–8）

构建流程

语料库分三个阶段构建：

聚合阶段：八个公共医学问答数据集被归一化为统一的对话模式，无法明确映射的条目被丢弃。
临床医生审核的合成生成阶段：一个由四位医生组成的专家小组对每个少样本生成提示模板的三个抽样输出进行审核，分歧通过小组讨论解决。审核产生了生成流程的四项结构性改进，包括收紧对“争议性”和“过时”内容的宽泛约束；要求明确的疾病进展和地理背景；将问题主干与答案分离；以及排除过于美国中心化的措辞。合成组件随后由 gpt-oss-120b 生成。
幻觉缓解阶段：对于每个带有标注答案的多项选择题，通过数据集特定的正则表达式提取预测的字母，并在温度 0.7 下独立重新采样最多 8 次，直到提取的字母与金标准标签匹配。

预期用途

仅限研究用途，包括可重复性、审计和医学大型语言模型的红队测试。不旨在替代临床判断。基于此语料库训练的模型不应在未经独立领域特定安全性评估的情况下部署。

相关资源

论文: Fully Open Meditron: An Auditable Pipeline for Clinical LLMs
基于此语料库训练的模型: MeditronFO Collection
所属机构: LiGHT（EPFL），合作机构包括 Ariadne Labs（哈佛大学）和 Ashoka 大学 Koita 数字健康中心

搜集汇总

数据集介绍

构建方式

该数据集以严谨的三阶段流程构建而成。首先，整合八项公开医学问答数据集（如MedQA、MedMCQA等），将其标准化为统一的对话格式，并剔除无法明确映射的样本。其次，由四位临床医师组成的评审小组对少样本生成模板进行逐项审查，通过讨论解决分歧，并据此调整生成管线，包括收紧对“争议性”与“过时”内容的约束、要求明确疾病进展与地理背景等。最后，利用gpt-oss-120b模型生成合成数据，并通过正则表达式提取多项选择题的预测答案，若与标准答案不匹配，则最多在温度0.7下独立重采样8次，直至一致，以有效缓解幻觉问题。

特点

该数据集具有鲜明的临床可追溯性与透明性。总计约60万条样本（约1.5亿词元），涵盖四大组件：聚合公共问答、合成问答、临床指南问答及开放式临床病例。所有数据均保留来源数据集名称、生成提示模板及去污染记录，确保完全可审计。合成数据经临床医师小组验证，并标注是否由教师模型生成、教师模型类型及重采样尝试次数等信息。此外，数据集采用开放式对话格式，包含系统、用户及助手的多轮交互结构，便于直接应用于大语言模型的监督微调。

使用方法

用户可通过HuggingFace的datasets库便捷加载数据集。默认情况下，使用`load_dataset('EPFLiGHT/fully-open-meditron')`即可获取合并后的全部样本。若需针对特定组件进行消融实验，可指定配置名称，例如`load_dataset('EPFLiGHT/fully-open-meditron', 'synthetic_moove')`加载开放式临床病例数据。数据集中每条记录均包含唯一标识符、符合OpenAI格式的多轮对话列表、来源组件标记及是否为合成数据等字段，支持研究者灵活地进行模型训练、评估及红队测试。需注意，合成部分采用CC BY-NC 4.0许可，仅限研究用途。

背景与挑战

背景概述

Fully Open Meditron Corpus由EPFL的LiGHT实验室主导，联合哈佛大学Ariadne Labs与阿育王大学Koita数字健康中心共同创建，发表于2026年，旨在为临床大语言模型提供完全可审计的训练语料。核心研究问题聚焦于如何构建透明、可复现且经过临床专家验证的医学问答数据集，以支持模型在临床决策支持与医学问答中的监督微调。该语料库整合了八个公开医学QA数据集与三个临床医生审核的合成组件，总计约60万条样本（约1.5亿词元），其全流程透明性（包括数据来源、生成提示与去污染细节）对推动可信赖医学AI研究具有里程碑意义。

当前挑战

该数据集首要解决的领域挑战是医学大语言模型在临床场景中的可信度与安全性问题，传统公开数据集存在噪声、标注不一致及领域偏见，难以支撑高风险的临床决策。构建过程中面临两大挑战：一是异构医学QA数据的标准化，需将八种不同来源的数据统一为对话格式并剔除歧义项；二是合成数据生成的可靠性，通过四名医生小组对生成模板进行三轮评审，解决了对“争议性”“过时”内容的过度约束、疾病进展与地理背景缺失、题干与答案解耦以及过度美国中心化表述等结构性问题，并采用最多八次重采样策略将幻觉率降至可接受水平。

常用场景

经典使用场景

在临床自然语言处理与医疗大语言模型研究领域，Fully Open Meditron 语料库被广泛用于监督式微调（SFT）任务，尤以构建可信赖的医学问答系统为核心。该数据集整合了八项公开医疗问答数据集与三项经临床医生审核的合成组件，共计约60万条对话样本，覆盖从标准化考试问答到开放式临床病例推理的多元场景。研究者通常将其作为训练数据，以提升模型在医学知识检索、多选诊断推理及基于指南的临床决策支持等任务中的表现，其标准化的对话格式与细粒度的元信息标注亦便于进行可复现的消融实验与模型审计。

解决学术问题

该数据集解决了医学大语言模型训练中数据来源不透明、标注质量不可控以及潜在标签偏差等关键学术难题。通过构建一个完全可审计的管道——涵盖公共数据聚合、临床医生委员会审核合成提示模板、以及基于拒绝采样的幻觉缓解机制——它首次提供了每个数据点的完整溯源信息与生成参数。这一设计使得研究者能够严谨地量化数据质量对模型性能的影响，探究合成数据与真实数据的最佳混合比例，并系统性地评估模型在医学场景下的鲁棒性与安全性，从而推动了可解释、可追溯的临床AI评估范式的发展。

衍生相关工作

该数据集直接催生了 MeditronFO 系列模型，成为完全开源医学大语言模型管线的重要里程碑。相关工作沿两条主线展开：一是复现与扩展研究，多篇论文基于该语料库进行不同规模模型（如 Llama、Mistral 架构）的微调比较，分析数据质量与模型规模的权衡；二是方法论创新，研究者借鉴其临床医生审核与幻觉缓解策略，开发了新的合成数据生成与质量过滤框架。此外，该数据集的透明构建过程为后续医疗 NLP 数据集设计树立了可审计性基准，激发了关于数据溯源伦理与模型安全评估的跨学科讨论。

以上内容由遇见数据集搜集并总结生成