five

ClinTeach

收藏
arXiv2025-12-05 更新2025-12-09 收录
下载链接:
https://github.com/Zhitao-He/MedTutor-R1
下载链接
链接失效反馈
官方服务:
资源简介:
ClinTeach是由香港科技大学团队构建的大规模苏格拉底式教学对话数据集,包含4.8万条临床医学教育场景下的群体教学对话数据。该数据集通过多智能体教学模拟器ClinEdu生成,其核心创新在于将客观病例脚本与主观患者人格解耦,结合300种学生角色原型,动态模拟查房教学中的协作推理过程。数据覆盖从病例观察到诊断结论的完整认知链条,每条记录均包含教师的多维度思考标签(历史分析、问题定位、个体评估和群体诊断)和适应性指导策略。该数据集旨在解决临床医学教育中高质量群体教学资源稀缺的问题,为训练支持一对多教学的AI导师提供数据基础。

ClinTeach is a large-scale Socratic teaching dialogue dataset developed by a team from the Hong Kong University of Science and Technology, containing 48,000 group teaching dialogue records in clinical medical education scenarios. This dataset is generated via ClinEdu, a multi-agent teaching simulator. Its core innovation lies in decoupling objective case scripts from subjective patient personalities, and integrating 300 student role prototypes to dynamically simulate the collaborative reasoning process during ward-round teaching sessions. The dataset covers the complete cognitive chain from case observation to diagnostic conclusion, with each record containing multi-dimensional thinking tags of instructors including historical analysis, problem localization, individual assessment, and group diagnosis as well as adaptive guidance strategies. This dataset aims to address the shortage of high-quality group teaching resources in clinical medical education, providing a data foundation for training AI tutors that support one-to-many teaching.
提供机构:
香港科技大学
创建时间:
2025-12-05
原始信息汇总

MedTutor-R1 数据集概述

数据集基本信息

  • 数据集名称:MedTutor-R1
  • 核心构成:基于ClinEdu多智能体教学模拟器构建的ClinTeach苏格拉底式教学对话数据集。
  • 主要目的:用于临床医学教育中的一对多苏格拉底式教学,旨在通过模拟协作推理(如病房查房)来弥补临床培训需求与专家指导稀缺之间的差距。
  • 相关论文:标题为“MedTutor-R1: Socratic Personalized Medical Teaching with Multi-Agent Simulation”的预印本论文(arXiv:2505.23224)。
  • 许可证:数据集采用CC BY-NC 4.0许可证

数据集生成与内容

  • 生成框架:使用ClinEdu多智能体教学模拟器生成。该框架通过分解病例、创建患者脚本、从患者数据库中选取合适的患者原型、随机组建具有不同背景的学生团队,来模拟临床查房过程。
  • 模拟过程:包含学生分析、导师指导和回顾、以及学生提问和探索。
  • 数据特点:捕获了群体教学的复杂性,专注于协作推理,而非传统的一对一知识传授。

模型训练与应用

  • 目标模型:MedTutor-R1,首个为临床医学教育中一对多教学设计的多模态苏格拉底式导师模型。
  • 训练流程
    1. 指令微调:在ClinTeach数据集上进行指令微调。
    2. 强化学习优化:使用基于三维评估标准(结构保真度、分析质量和临床安全性)的奖励进行强化学习,以优化其自适应苏格拉底式教学策略。
  • 评估方法:采用基于模拟的交互式评估,将训练后的导师模型重新部署回ClinEdu环境中进行测试。

性能表现

  • 实验结果表明,MedTutor-R1在平均教学得分上比基础模型高出20%以上,与o3模型性能相当,并且在处理不同规模学生群体时表现出高度的适应性。

相关资源与文件

  • 测试数据Evaluation/Eval_dataset/MedXpertQA/MedXpert_patient_script_MM_for_test.json
  • 评估脚本Evaluation/Judgement/automated_eval_result.py
  • 患者脚本构建Patient_simulate/construct_script_MM_test.py
  • 患者数据库构建Patient_simulate/construct_database.py
  • 学生数据库构建Student_simulate/construct_student_database.py
  • 智能体指令文件
    • Execution/Agent_prompt/student_action.txt
    • Execution/Agent_prompt/student_analysis.txt
    • Execution/Agent_prompt/teacher_guidance.txt
搜集汇总
数据集介绍
main_image_url
构建方式
在临床医学教育领域,面对高质量教学资源稀缺与日益增长培训需求之间的鸿沟,ClinTeach数据集的构建采用了创新的多智能体模拟范式。该数据集依托于ClinEdu这一高保真教学模拟器,通过解耦客观病例脚本与主观患者人格,实现了临床场景的模块化组合与规模化生成。模拟环境初始化了具备个性化人格的患者代理、背景多元的学生代理以及医学专家与安全监督代理,并遵循严格的三阶段交互协议——学生分析与报告、教师指导与审查、学生查询与探索。在此基础上,系统通过自动化流程生成了包含4.8万轮苏格拉底式教学对话的大规模数据集,精准捕捉了小组教学中的复杂动态与协作推理过程。
特点
ClinTeach数据集的核心特征在于其高度仿真性与教学针对性。数据集深度模拟了临床查房等真实小组教学场景,超越了传统一对一知识传授的局限,着重于培养医学生的协作推理能力。其对话结构经过精心设计,要求教学代理在每轮指导前进行多维度的内部思考,包括对对话历史的反思、对当前教学目标的审视、对个体学生的分析以及对小组整体动态的评估。这种结构确保了教学策略既能关注个体学习差异,又能统筹小组协作进程。此外,数据集覆盖了骨骼、神经、心血管等11个人体系统和17个医学专科,包含单轮与多轮对话,为训练适应复杂、动态临床环境的教学代理提供了丰富且高质量的语料基础。
使用方法
ClinTeach数据集主要用于训练和评估面向临床医学教育的多学生苏格拉底式教学代理,例如论文中所述的MedTutor-R1模型。其典型使用流程始于监督式微调,利用数据集使模型掌握基本的内部思考流程与教学技能。随后,通过基于准则的强化学习对模型进行优化,该准则涵盖结构保真度、分析质量与临床安全性三个维度,并设有针对关键安全与结构问题的否决机制,以确保教学指导的安全性与适应性。对于模型能力的评估,则采用基于模拟的交互式评估方法,将训练后的教学代理重新部署回ClinEdu模拟环境中,在动态交互中检验其启发式引导与个性化教学能力,从而超越静态测试集的局限,实现对模型原位教学效能的真实衡量。
背景与挑战
背景概述
ClinTeach数据集由香港科技大学的研究团队于2025年构建,旨在应对临床医学教育中日益增长的教学需求与专家指导资源稀缺之间的显著矛盾。该数据集依托于多智能体教学模拟器ClinEdu,通过模拟具有个性化特征的虚拟患者和多样化学生群体,生成了大规模苏格拉底式教学对话数据。其核心研究问题聚焦于如何利用大型语言模型实现一对多的临床协作推理教学,以弥补传统一对一知识传授在培养团队协作能力方面的不足。ClinTeach的出现为临床医学教育提供了可控的测试平台和可扩展的数据生成机制,推动了人工智能在复杂教学场景中的应用。
当前挑战
ClinTeach数据集致力于解决临床医学教育中一对多苏格拉底式教学的挑战,其核心在于模拟真实病房查房等团队协作场景,引导学生进行集体临床推理。这一过程要求模型不仅具备扎实的医学知识,还需掌握高阶教学策略,以在混乱且主观的信息流中提供精准的启发式指导。在数据集构建过程中,研究人员面临的主要挑战包括:如何设计高保真的多智能体模拟环境,以生成涵盖多样化患者性格和学生背景的教学对话;如何确保生成数据的教学逻辑符合苏格拉底方法的精髓,即通过提问引导而非直接灌输知识;以及如何建立有效的质量控制机制,保障生成内容的医学准确性、结构完整性和临床安全性。
常用场景
经典使用场景
在临床医学教育领域,模拟真实病房查房场景是培养医学生临床思维与团队协作能力的关键环节。ClinTeach数据集通过多智能体仿真技术,构建了包含个性化患者与多样化学生群体的苏格拉底式教学对话,为研究者在可控环境中测试复杂教学过程提供了经典范例。该数据集常用于训练和评估面向群体教学的AI导师模型,使其能够模拟资深临床教师,在动态交互中引导学生进行协作推理与诊断决策。
解决学术问题
ClinTeach数据集主要解决了临床医学教育中专家指导稀缺与个性化教学需求之间的矛盾,以及现有AI教学系统忽视群体协作推理的学术空白。它通过大规模苏格拉底式教学对话,为研究者提供了探索多学生场景下自适应教学策略的实证基础,推动了教学模拟、个性化学习与多智能体交互等交叉领域的发展。该数据集的意义在于首次系统化捕获了群体临床教学中的复杂动态,为开发可扩展、高保真的医学教育AI工具奠定了数据与方**论基础。
衍生相关工作
ClinTeach数据集催生了一系列围绕多智能体教学模拟与个性化医学教育的研究。其直接衍生的经典工作包括MedTutor-R1——首个面向临床群体教学的多模态苏格拉底导师模型,该模型通过指令微调与强化学习优化了自适应教学能力。此外,数据集支撑了对教学策略有效性、多学生管理机制以及临床安全性评估的深入研究,并启发了后续如增强仿真保真度、扩展跨专科教学场景等相关工作的开展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作