CliniDial

Name: CliniDial
Creator: 密歇根大学，安阿伯分校
Published: 2025-06-16 02:39:24
License: 暂无描述

arXiv2025-06-16 更新2025-06-19 收录

下载链接：

https://github.com/MichiganNLP/CliniDial

下载链接

链接失效反馈

官方服务：

资源简介：

CliniDial 是一个自然发生的多模态对话数据集，用于临床操作中的团队反思。该数据集由模拟医疗操作收集，包括音频数据和其转录、患者模拟人的模拟生理信号以及团队从两个摄像机角度的操作方式。我们根据现有的框架对行为代码进行注释，以了解 CliniDial 的团队合作过程。我们通过实验测试了现有大型语言模型（LLMs）处理这些特性的数据的能力。实验结果表明，CliniDial 对现有模型构成了重大挑战，促使未来开发能够处理真实世界临床数据的方法。

CliniDial is a naturally occurring multimodal conversational dataset for team debriefing in clinical practice. This dataset was collected from simulated medical procedures, including audio data and their transcripts, simulated physiological signals from simulated patients, and the team's procedural behaviors captured from two camera angles. We annotated behavioral codes based on existing frameworks to analyze the team collaboration processes within CliniDial. We experimentally tested the capability of current large language models (LLMs) to process data with these multimodal features. Experimental results demonstrate that CliniDial poses significant challenges to existing models, motivating the future development of methods capable of handling real-world clinical data.

提供机构：

密歇根大学，安阿伯分校

创建时间：

2025-06-16

搜集汇总

数据集介绍

构建方式

CliniDial数据集是通过模拟医疗操作场景构建的，涵盖了手术室内的多模态数据。数据收集包括团队成员之间的音频对话及其转录文本、患者模拟器的生理信号以及两个不同角度的摄像头记录的手术操作过程。所有数据均经过时间戳对齐，以确保多模态数据的一致性。标注团队行为代码时采用了现有的团队反思行为框架，以深入理解手术过程中的团队协作机制。

特点

CliniDial数据集具有三个显著特点：标签分布不均衡、自然丰富的团队互动以及多模态数据集成。标签不均衡反映了真实临床场景中不同行为出现的自然频率；平均每段对话包含311个话轮，展现了复杂的团队协作动态；而音频、视频、生理信号和文本的多模态组合为研究提供了全面的分析维度。数据集还包含大量临床专业术语和特定场景短语，如“胆囊切除”、“丹曲洛林”等。

使用方法

该数据集支持三种主要应用方式：测试现有模型处理临床数据的能力，特别是针对标签不均衡、对话性质和跨模态理解等挑战；分析临床环境中不同角色的互动机制，通过语言模式识别团队协作特征；作为大语言模型的训练资源，可通过时间戳实现跨模态对齐，用于持续预训练或有监督微调。研究人员可使用提供的代码库进行实验，但需注意因伦理限制，部分数据需经申请获取。

背景与挑战

背景概述

CliniDial是由密歇根大学的研究团队于2025年发布的多模态对话数据集，专注于临床手术环境中的团队协作与反思。该数据集通过模拟医疗操作场景收集，包含音频转录文本、患者模拟生理信号以及双视角手术室视频，旨在研究医疗团队在高压环境下的沟通机制与决策过程。其核心研究问题聚焦于如何通过多模态数据分析提升团队协作效能，从而减少医疗失误。作为首个整合生理信号与手术室对话的数据集，CliniDial为临床自然语言处理和人机交互研究提供了重要基准。

当前挑战

CliniDial面临三大核心挑战：其一，领域问题的复杂性体现在医疗对话特有的标签不平衡性（如'Seek'和'Evaluate'标签占比达71%），这对模型的长尾识别能力提出苛刻要求；其二，数据构建过程中需克服多模态对齐难题，包括音频-视频-生理信号的时间同步（9种生理信号需精确到时间戳对齐）以及医疗隐私保护；其三，跨模态理解存在显著鸿沟，现有模型对手术场景视频（含口罩/手术帽遮挡）和专业生理信号（如EtCO2数值）的联合理解准确率不足50%。这些挑战揭示了真实临床场景与实验室研究的性能差距。

常用场景

经典使用场景

CliniDial数据集在临床团队协作研究中具有重要应用价值。该数据集通过模拟真实手术场景，记录了医疗团队成员间的多模态交互数据，包括语音对话、患者生理信号和手术室双视角视频。研究人员可以基于这些丰富的数据，深入分析手术过程中团队成员如何通过语言和非语言方式进行协作，从而揭示高效医疗团队运作的内在机制。

衍生相关工作

基于CliniDial数据集已衍生出多个重要研究方向。在团队动态分析方面，研究者开发了新的多模态行为编码方法；在医疗NLP领域，推动了针对临床对话的预训练语言模型发展；在人机交互方向，启发了手术室智能助手的交互设计研究。这些工作显著拓展了医疗团队科学的研究边界，为后续研究奠定了方法论基础。

数据集最近研究