triage-medical-dataset

Hugging Face2026-03-05 更新2026-03-06 收录

医疗分诊

自然语言处理

数据链接：

https://huggingface.co/datasets/TimotheeB/triage-medical-dataset 数据链接链接失效反馈

官方服务：

资源简介：

POC Triage Medical 是一个双语（法语/英语）医疗初诊分诊数据集，主要用于监督微调（SFT）和偏好对齐（DPO）任务。数据集来源于四个主要语料库：FrenchMedMCQA、MediQAl、MedQuAD 和 UltraMedical-Preference，涵盖多选题、开放式问答和偏好对数据。数据集规模在10万到100万样本之间，包含训练集、验证集和测试集。每个样本包含患者案例描述、结构化响应（分诊）、症状、病史、生命体征等字段，并标注分诊级别（最高紧急、中度紧急、延迟紧急）。数据集经过匿名化处理，符合GDPR要求，并包含完整性校验和安全临床规则。适用于医疗文本生成、问答系统等自然语言处理任务。

POC Triage Medical is a bilingual (French/English) medical initial triage dataset primarily intended for supervised fine-tuning (SFT) and direct preference optimization (DPO) tasks. The dataset is derived from four main corpora: FrenchMedMCQA, MediQAl, MedQuAD, and UltraMedical-Preference, covering multiple-choice questions, open-ended question answering, and preference pair data. With a scale ranging from 100,000 to 1,000,000 samples, it includes training, validation, and test splits. Each sample contains fields such as patient case description, structured triage response, symptoms, medical history, and vital signs, and is annotated with triage levels: highest emergency, moderate emergency, and delayed emergency. The dataset has been anonymized to comply with GDPR requirements, and incorporates integrity checks and safe clinical guidelines. It is suitable for natural language processing tasks including medical text generation and question answering systems.

创建时间：

2026-02-27

原始信息汇总

数据集卡片 - POC Triage Medical

1. 基本描述

名称: POC Triage Medical
语言: 法语 (fr), 英语 (en)
许可证: CC BY 4.0
任务类别: 文本生成, 问答
标签: 医疗, 分诊, 监督微调, 直接偏好优化, 双语
规模: 100K < n < 1M

2. 数据集构成与配置

数据集包含两个主要配置，用于不同的训练目的：

SFT配置: 用于监督微调的指令/响应对。
- 文件路径: sft/train.jsonl, sft/validation.jsonl, sft/test.jsonl
DPO配置: 用于偏好对齐的 chosen/rejected 对。
- 文件路径: dpo/train.jsonl, dpo/validation.jsonl, dpo/test.jsonl

3. 数据来源与清单

数据集由以下四个来源的语料库构成：

数据集	类型	语言	大小	许可证	PII风险	用途	相关性/10
FrenchMedMCQA (`qanastek/frenchmedmcqa`)	多项选择题	法语	3,105	Apache-2.0	低	SFT + DPO	6
MediQAl (`ANR-MALADES/MediQAl`)	多项选择题 + 开放式问题	法语	32,603	CC BY 4.0	低（待确认）	SFT + DPO	7
MedQuAD (`abachaa/MedQuAD`)	问答对	英语	47,457	CC BY 4.0	低	SFT + DPO	5
UltraMedical-Preference (`TsinghuaC3I/UltraMedical-Preference`)	偏好对 (chosen/rejected)	英语	100k+	MIT	低（待验证）	仅用于DPO	6

来源选择规则

许可证为 unknown_verify 的来源在解决前被排除。
pii_risk 高于 low 的来源不在范围内。
UltraMedical-Preference 保留 label_source=gpt4 和 confidence=medium 的标签。
UltraMedical-Preference 被排除在精选的SFT数据之外，仅用于DPO。

4. 构建策略

SFT数据 (~5,000 对)

目标数量: 5,000 对指令/响应。
目标分布: 2,500 法语 / 2,500 英语（容忍度 60/40）。
混合来源:
- 法语: MediQAl + FrenchMedMCQA（将多项选择题转换为分诊风格）。
- 英语: MedQuAD。
强制响应模板:
- 病例重述。
- 缺失问题（症状、病史、生命体征）。
- 建议的分诊级别。
- 危险信号。
- 升级指示。

DPO数据

直接基础: UltraMedical-Preference (chosen/rejected 对)，附带 label_source: gpt4 和 confidence: medium。
补充“黄金”数据集（目标）:
- 500 至 2,000 对分诊数据。
- 偏好标准：安全性、谨慎性、导向一致性、明确的危险信号。
- 优先对关键病例进行人工标注。

优先级排序

FrenchMedMCQA
MediQAl (CC BY 4.0)
UltraMedical-Preference (中等置信度标签)
MedQuAD

5. 规范模式

每条记录都标准化为以下模式：

字段	类型	描述
`id`	string	唯一标识符
`schema_version`	string	模式版本 (`v1.0.0`)
`lang`	string	语言 (`fr` / `en`)
`instruction`	string	患者病例描述
`response`	string	结构化响应（分诊）
`symptoms`	string	呈现的症状
`history`	string	病史
`vitals`	string	生命体征
`triage_level`	string	`urgence_maximale` / `urgence_moderee` / `urgence_differee`
`triage_confidence`	string	置信度水平
`source`	string	原始来源
`source_split`	string	原始划分（如适用）
`confidence`	string	标签置信度
`license`	string	来源许可证
`anonymized`	bool	如果已匿名化则为 `true`
`created_at`	string	创建时间戳

分诊标签

urgence_maximale
urgence_moderee
urgence_differee

数据划分

train / validation / test (近似按 语言 × 分诊级别 分层)。

6. 治理与安全

数据保护与匿名化

自动GDPR验证 + 建议人工审查。
每条记录可追溯来源和许可证。
强制匿名化（字段 anonymized=true）。

完整性

SHA256校验和 + 大小 + 时间戳记录在 reports/integrity_manifest.json 中。
验证命令: make data-integrity-check。

临床安全规则

安全性 > 完备性。
禁止：未经检查的确定性诊断、有风险的个性化处方。
义务：阐明不确定性和紧急阈值。

来源验证

每个来源的报告: validation/<source>/final_validation.json。
全局摘要: reports/source_validation_summary.json。
裁决: GO, VALIDATE 或 NO_GO。
如果所需来源不是 GO，则 week1-all 失败。
阈值在 configs/pipeline.yaml → source_validation 中配置。

版本控制

脚本 + 清单: Git。
大型数据集: Hugging Face Datasets。
每条记录的元数据: source, source_license, redistribution_ok, pii_risk, confidence_level。

7. 相关命令

bash make data-integrity-build # 生成完整性清单 make data-integrity-check # 检查完整性 make data-source-validate # 验证来源 make fetch-raw # 下载原始数据

搜集汇总

数据集介绍

构建方式

在医疗分诊领域，数据集的构建需兼顾专业性与安全性。该数据集通过整合多个权威医疗语料库，采用双语策略构建而成。具体而言，从FrenchMedMCQA、MediQAl、MedQuAD及UltraMedical-Preference四个来源筛选数据，依据严格的许可协议与隐私风险评估标准进行过滤。构建过程分为监督微调与偏好对齐两部分：监督微调部分将约五千条指令-响应对转化为分诊风格，并强制采用包含症状、病史、分诊等级等要素的结构化模板；偏好对齐部分则直接采用标注的偏好对，并辅以人工标注的黄金标准数据，以确保分诊决策的可靠性与安全性。

使用方法

为有效利用该数据集进行模型训练与评估，建议遵循其预设的分割与配置。数据集提供了监督微调与直接偏好优化两种配置，分别对应不同的训练目标。使用者可按需加载相应配置，并利用训练、验证与测试分割进行模型开发。在应用前，务必运行完整性检查与源数据验证命令，以确保数据质量与合规性。模型训练应侧重于分诊逻辑的结构化输出生成，并严格遵循数据集内嵌的安全规则，避免产生具有临床风险的预测内容。

背景与挑战

背景概述

在医疗人工智能领域，构建能够辅助临床分诊决策的语言模型已成为一项关键研究课题。triage-medical-dataset数据集应运而生，旨在为医疗分诊任务提供高质量的双语指令微调数据。该数据集由研究团队于近期创建，核心目标在于解决医疗场景下紧急程度分级与患者引导的自动化问题。通过整合FrenchMedMCQA、MediQAl、MedQuAD及UltraMedical-Preference等多个权威医学语料库，数据集构建了结构化的分诊响应范式，涵盖症状描述、病史记录、生命体征及分诊等级等关键临床维度。其设计不仅支持监督微调，还融入了基于偏好的直接优化策略，为开发安全、可靠的医疗对话系统奠定了数据基础，对推动多语言医疗人工智能应用具有显著影响力。

当前挑战

该数据集致力于应对医疗分诊自动化这一复杂领域问题，其核心挑战在于如何确保模型输出符合临床安全规范，避免因错误分诊导致患者风险。具体而言，领域挑战体现在分诊决策需高度依赖动态临床语境与专业医学知识，要求模型能精准识别危急症状并明确转诊指征。在构建过程中，数据集面临多重困难：源数据多源自医学考试或百科全书式问答，缺乏面向分诊的任务导向性，需进行复杂的格式转换与内容重构；同时，数据标注依赖大语言模型生成，存在置信度中等与潜在偏见问题；此外，严格的隐私保护要求与多语言数据均衡性也增加了数据清洗与质量控制的复杂度。

常用场景

经典使用场景

在医疗人工智能领域，triage-medical-dataset作为双语（法语/英语）医疗分诊数据集，其经典使用场景聚焦于训练和评估大型语言模型在初步医疗分诊任务中的表现。该数据集通过精心构建的指令-响应对，支持监督式微调（SFT）和基于偏好的对齐（DPO），使模型能够学习如何根据患者症状、病史和生命体征，结构化地输出分诊级别、风险标志和后续建议。这为开发能够在临床前环境中辅助进行紧急程度判定的自动化系统提供了关键数据基础。

解决学术问题

该数据集有效解决了医疗自然语言处理研究中，高质量、结构化双语分诊数据稀缺的核心问题。它通过整合多个来源的医学问答数据，并转换为统一的分诊范式，为研究模型在跨语言医疗决策支持中的泛化能力、安全性和对齐性能提供了基准。其意义在于推动了以安全为导向的医疗AI模型开发范式，强调在输出中明确不确定性、识别危急信号，从而在辅助决策时优先保障患者安全，对促进可信赖医疗人工智能的发展具有重要影响。

实际应用

在实际应用层面，基于此数据集训练的模型可部署于在线医疗咨询平台、急救热线辅助系统或社区医疗中心的预检分诊环节。它们能够处理患者以自然语言描述的症状，快速生成初步的紧急程度评估，列出需要补充的关键信息（如缺失的症状或生命体征），并提示需要立即就医的危险信号。这有助于优化医疗资源分配，缓解一线医护人员的工作压力，并为患者在寻求专业医疗帮助前提供及时、结构化的初步指导。

数据集最近研究