CHSA-Triage-Medic-Full-Dataset

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/cyrille-elie/CHSA-Triage-Medic-Full-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为训练能够进行紧急分诊和提供临床推理的智能医疗助手而构建的。它分为三个子集，分别对应不同的训练阶段：监督微调（SFT）包含一般医学知识和临床案例，SFT专家数据集专注于紧急分诊的合成数据，以及用于直接偏好优化（DPO）的对齐数据集。数据集包含法语和英语内容，适用于文本生成、文本分类和问答任务。

创建时间：

2025-12-12

原始信息汇总

CHSA-Triage-Medic-Full-Dataset 数据集概述

数据集基本信息

名称：CHSA Triage Medic Full
语言：法语（fr）、英语（en）
许可证：MIT
任务类别：文本生成、文本分类、问答
标签：医疗、分诊、临床自然语言处理、监督微调、直接偏好优化、急诊
规模类别：10K < n < 100K
配置数量：3

数据集背景与目的

该数据集是在 AI Engineer 项目（CHSA项目）框架下构建的，旨在训练一个能够进行紧急分诊并提供临床推理的智能医疗助手。数据集分为三个不同的子集，对应于训练的不同阶段（监督微调和对齐）。

数据集组织与配置

1. 配置：`sft_medical_dataset`

此子集包含多样化的学术和临床医疗数据（经转换的多项选择题、临床案例）。数据在法语和英语之间保持50%的平衡，并已通过 Microsoft Presidio 进行匿名化处理。

数据划分：train（5000个样本），validation（500个样本）
数据来源：FrenchMedMCQA, MediQAl, MedQuAD

数据格式

列名	类型	描述
`instruction`	string	系统提示 + 问题或临床案例。
`response`	string	预期的医疗回答或案例分析。
`source_dataset`	string	数据来源（例如：`MediQAl-mcqu`, `MedQuAD`）。
`language`	string	`fr` 或 `en`。
`anonymized`	bool	如果实体（姓名、日期、电话）已被屏蔽，则为 `True`。

2. 配置：`sft_expert_dataset`

此子集由高质量的合成数据构成，旨在向模型传授特定的分诊逻辑（最高紧急程度、中度紧急、延迟处理）。它使用数据增强技术（医学术语同义词）来避免过拟合。

数据划分：train（1500个样本）
数据来源：通过经验证的专家模板（CHSA）进行合成生成。

数据格式

列名	类型	描述
`instruction`	string	包含系统提示（角色）+ 患者陈述（例如：“82岁女性，呼吸窘迫...”）。
`response`	string	强制的“思维链”结构：分析（症状 + 体征） + 判定（紧急程度级别）。

3. 配置：`dpo_dataset`

此子集用于对齐阶段（DPO - 直接偏好优化）。它使模型学会优先选择详细、结构化且临床准确的回答，而不是模糊或不正确的回答。

数据划分：train（约90%），test（约10%）
数据来源：UltraMedical-Preference（经过调整和过滤）。

数据格式

列名	类型	描述
`prompt`	string	提交给模型的医疗问题或临床案例。
`chosen`	string	最佳回答（被接受的回答），注重细节和临床准确性。
`rejected`	string	较差回答（被拒绝的回答），通常过于简短、模糊或存在幻觉。

数据加载示例

可以使用 datasets 库按需单独加载配置： python from datasets import load_dataset

1. 加载通用SFT数据集（训练 + 验证）

ds_medical = load_dataset("cyrille-elie/CHSA-Triage-Medic-Full-Dataset", "sft_medical_dataset")

2. 加载专家SFT数据集（纯分诊）

ds_expert = load_dataset("cyrille-elie/CHSA-Triage-Medic-Full-Dataset", "sft_expert_dataset")

3. 加载DPO数据集（对齐）

ds_dpo = load_dataset("cyrille-elie/CHSA-Triage-Medic-Full-Dataset", "dpo_dataset")

示例：显示数据

print(ds_expert[train][0])

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，CHSA-Triage-Medic-Full-Dataset的构建体现了多源数据融合与结构化设计的理念。该数据集通过三个独立配置分别服务于监督微调与偏好对齐的训练阶段。sft_medical_dataset整合了来自FrenchMedMCQA、MediQAl和MedQuAD的学术与临床资料，并经过Microsoft Presidio工具进行匿名化处理，确保了英法双语数据的均衡性。sft_expert_dataset则基于专家验证的模板生成高质量的合成数据，专门针对急诊分诊逻辑，并采用医学术语同义词替换进行数据增强以提升模型泛化能力。dpo_dataset源自UltraMedical-Preference数据集的适配与筛选，构建了包含优选与次选回答的偏好对，以支持直接偏好优化训练。

特点

该数据集在急诊医学与人工智能交叉领域展现出鲜明的专业特性。其核心优势在于模块化设计，将通用医学知识、专项分诊技能与响应偏好对齐分离为三个独立配置，允许研究者按需调用特定训练阶段的数据。数据内容覆盖了从基础医学问答到复杂急诊场景的链式推理，其中sft_expert_dataset强制采用“分析-裁决”的思维链结构，强化了临床决策的逻辑透明性。语言维度上，数据集兼顾法语与英语资源，并实施了系统的实体匿名化处理，既满足了多语言应用需求，也符合医疗数据隐私保护规范。这种结构清晰、目标明确的数据组织方式为构建可靠的医疗辅助系统提供了坚实基础。

使用方法

为高效利用该数据集进行智能医疗助手开发，研究者可通过Hugging Face的datasets库按配置灵活加载。针对监督微调阶段，可分别加载sft_medical_dataset获取通用医学知识，或加载sft_expert_dataset专注于急诊分诊逻辑的训练；每个配置均预设了训练与验证分割。对于模型对齐阶段，则需加载dpo_dataset以获取用于直接偏好优化的偏好对数据。具体操作时，通过指定数据集名称与相应配置参数即可调用对应数据子集，随后可按照标准流程进行模型训练、验证与测试。这种按需加载的机制优化了实验流程，使得不同训练目标能够精准匹配相应的数据资源。

背景与挑战

背景概述

CHSA-Triage-Medic-Full-Dataset诞生于AI Engineer项目（CHSA项目）的背景下，旨在构建一个能够执行紧急分诊并提供临床推理的智能医疗助手。该数据集由多个子集构成，包括监督微调和偏好对齐的数据，覆盖法语和英语双语环境。其核心研究问题聚焦于通过自然语言处理技术提升医疗紧急情况下的自动化分诊准确性与效率，对临床自然语言处理及医疗人工智能领域具有显著的推动作用。

当前挑战

该数据集致力于解决医疗紧急分诊自动化中的核心挑战，包括如何准确理解复杂多变的临床症状描述，并生成符合医学逻辑的结构化分诊决策。在构建过程中，挑战体现在高质量双语医疗数据的获取与整合，以及通过合成数据生成与匿名化处理来平衡数据多样性与隐私保护，同时确保分诊逻辑的临床有效性与泛化能力。

常用场景

经典使用场景

在临床自然语言处理领域，CHSA-Triage-Medic-Full-Dataset的经典使用场景聚焦于智能医疗助手的训练与优化。该数据集通过整合监督微调和直接偏好优化技术，专门用于构建能够执行紧急分诊任务的模型。其核心应用在于模拟真实临床环境，让模型学习从患者症状描述中识别紧急程度，并生成结构化的临床推理分析，从而为医疗决策提供辅助支持。

衍生相关工作

基于该数据集衍生的经典工作主要包括针对多语言医疗问答模型的微调框架，以及专注于紧急分诊任务的专用人工智能助手。相关研究进一步探索了合成数据生成技术在医疗训练中的有效性，并推动了直接偏好优化方法在临床对齐领域的应用。这些工作共同丰富了医疗人工智能的模型架构与训练范式。

数据集最近研究

CHSA-Triage-Medic-Full-Dataset

CHSA-Triage-Medic-Full-Dataset 数据集概述

数据集基本信息

数据集背景与目的

数据集组织与配置

1. 配置：sft_medical_dataset

数据格式

2. 配置：sft_expert_dataset

数据格式

3. 配置：dpo_dataset

数据格式

数据加载示例

1. 加载通用SFT数据集（训练 + 验证）

2. 加载专家SFT数据集（纯分诊）

3. 加载DPO数据集（对齐）

示例：显示数据

1. 配置：`sft_medical_dataset`

2. 配置：`sft_expert_dataset`

3. 配置：`dpo_dataset`