DoctorFLAN

Name: DoctorFLAN
Creator: 香港中文大学深圳校区数据科学学院，大数据研究院，深圳市健康数据研究院，瑞典哈姆斯塔德大学，深圳先进技术学院
Published: 2025-10-13 14:18:27
License: 暂无描述

arXiv2025-10-13 更新2025-11-19 收录

下载链接：

https://hf-mirror.com/datasets/FreedomIntelligence/DoctorFLAN

下载链接

链接失效反馈

官方服务：

资源简介：

DoctorFLAN是一个大规模的中文医疗数据集，包含92,000个问答实例，覆盖22个临床任务和27个专业领域。该数据集通过参考增强和人工验证的方式，确保样本提供可靠和全面的专家回复，为训练医生助手模型提供数据基础。DoctorFLAN旨在解决现有医疗模型在医生辅助场景下的局限性，通过构建一个包含多种任务的数据集，帮助模型更好地理解和处理医生的工作流程。

DoctorFLAN is a large-scale Chinese medical dataset comprising 92,000 question-answering instances, covering 22 clinical tasks and 27 specialized medical domains. This dataset ensures that samples deliver reliable and comprehensive expert responses through reference-augmented and manually verified methods, serving as a solid data foundation for training physician assistant models. DoctorFLAN aims to address the limitations of existing medical models in physician assistance scenarios; by constructing a dataset encompassing diverse tasks, it helps models better understand and handle the clinical workflow of physicians.

提供机构：

香港中文大学深圳校区数据科学学院，大数据研究院，深圳市健康数据研究院，瑞典哈姆斯塔德大学，深圳先进技术学院

创建时间：

2025-10-13

搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，构建高质量数据集是提升模型临床适用性的关键。DoctorFLAN通过两阶段启发式反馈调查，联合数十名医疗专家确定了涵盖门诊与住院场景的22项临床任务，覆盖分诊、诊断、治疗及术后管理全流程。数据源整合了医学考试题库、百科全书及现有高质量医疗数据集，采用基于正则表达式的任务映射与去重处理，并通过GPT-4增强生成与专业医生人工核验的双重机制，最终形成包含92,000条问答实例的标准化数据集。

特点

该数据集以医生工作流为核心导向，突破传统患者导向数据集的局限，涵盖27个医学专科与四阶段临床任务，实现了医疗场景的全流程覆盖。其核心优势在于通过参考增强的答案优化机制，确保生成内容的专业深度与临床实用性。实验验证表明，基于该数据集训练的模型在复杂医疗任务中表现显著提升，尤其在诊断与治疗阶段的任务处理上展现出更强的知识推理能力，为医生辅助型语言模型提供了高质量的学习范本。

使用方法

研究者可通过监督微调框架将DoctorFLAN应用于医疗大语言模型的训练，其单轮问答格式适用于临床任务对齐的模型优化。评估阶段可结合DoctorFLAN-test单轮测试集与DotaBench多轮对话基准，采用GPT-4自动评估与医疗专家人工评价相结合的方式，从准确性、连贯性、相关性和完整性四个维度综合衡量模型表现。该使用范式既支持模型在特定医疗任务中的能力优化，也为其在真实临床场景中的多轮交互能力提供验证路径。

背景与挑战

背景概述

DoctorFLAN数据集由香港中文大学（深圳）数据科学学院与深圳大数据研究院联合开发，于2025年发布，旨在推动面向医生的医疗大语言模型研究。该数据集聚焦于临床工作流程中的实际需求，通过两阶段启发式反馈调查确定了22项核心任务，涵盖预诊断、诊断、治疗与后治疗四个阶段，涉及27个医学专科。其构建基于专业医生协作与GPT-4优化技术，提供了92,000条高质量中文医学问答实例，显著提升了开源模型在医疗场景中的性能，并为医生工作流程对齐提供了重要资源。

当前挑战

DoctorFLAN面临的挑战主要包括两方面：在领域问题层面，需解决现有模型在诊断与治疗阶段知识密集型任务中的性能不足，例如疾病分级与手术规划等复杂决策任务；在构建过程中，需克服数据质量控制的难题，包括通过正则表达式分类与人工验证确保任务映射准确性，以及利用参考增强优化技术生成可靠且全面的医学回答，同时避免生成内容缺乏具体细节的实用性缺陷。

常用场景

实际应用

在实际医疗场景中，DoctorFLAN支撑的模型可应用于医院临床决策支持系统。通过集成到电子病历系统，能够辅助医生完成症状问询提示、检查结果解读等重复性工作。在基层医疗机构，该系统可帮助全科医生进行初步分诊和疾病分级，提升医疗资源利用效率。其多轮对话评估基准DotaBench更模拟了真实医患交互场景，为模型的实际部署提供了可靠性保障。

衍生相关工作

基于DoctorFLAN的范式创新，衍生出多个重要的研究方向。DotaGPT作为该数据集训练的典型模型，展现了在医疗专业任务上的卓越性能。后续研究进一步扩展了多模态医疗助手开发，将文本分析与医学影像解读相结合。同时，该数据集启发了跨语言医疗大模型的研究，推动构建覆盖更广泛人群的智能医疗辅助体系，为全球医疗AI发展提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集