MMedFD

Name: MMedFD
Creator: 香港理工大学健康科技与信息学系, 中国香港特别行政区; 蚂蚁集团多媒体与算法质量团队, 中国杭州
Published: 2025-09-24 14:56:26
License: 暂无描述

arXiv2025-09-24 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/HanselZz/MMedFD

下载链接

链接失效反馈

官方服务：

资源简介：

MMedFD是一个用于多轮全双工中文医疗对话的基准数据集，包含来自实际部署的AI助手的5,805个带注释的会话，每个会话都有同步的用户和混合通道视图、RTTM/CTM计时和角色标签。该数据集用于评估语音识别系统的鲁棒性，特别是在临床对话中，需要处理全双工交互、说话者重叠和低延迟约束的情况。MMedFD支持对全双工对话系统和语音识别模型进行系统性评估，以应对医疗场景中的干扰管理和轮流发言行为。

MMedFD is a benchmark dataset for multi-turn full-duplex Chinese medical dialogues, consisting of 5,805 annotated conversations sourced from real-world deployed AI assistants. Each conversation is equipped with synchronized user and mixed-channel views, RTTM/CTM timing information, and speaker role labels. This dataset is designed to evaluate the robustness of speech recognition systems, particularly in clinical dialogue scenarios that require handling full-duplex interactions, overlapping speech, and low-latency constraints. MMedFD enables systematic evaluation of full-duplex dialogue systems and speech recognition models to tackle interference management and turn-taking behaviors in medical scenarios.

提供机构：

香港理工大学健康科技与信息学系, 中国香港特别行政区; 蚂蚁集团多媒体与算法质量团队, 中国杭州

创建时间：

2025-09-24

搜集汇总

数据集介绍

构建方式

在临床对话自动语音识别领域，真实场景数据的稀缺性促使MMedFD采用部署中的全双工医疗助手进行语料采集。该数据集通过保留回声消除与噪声抑制等实际声学特性，构建了包含5,805个对话会话的语料库，每个会话均配备同步多通道音频流和精确的时间标注。数据处理流程融合了基于大语言模型的隐私过滤机制与信号预处理技术，通过语音活动检测和说话人日志分析实现高质量语音片段分割，最终形成兼具医学专业性与技术严谨性的多模态对话资源。

特点

作为首个中文医疗全双工对话基准，MMedFD的突出特征体现在其真实场景下的多轮交互结构与精细化标注体系。数据集不仅提供原始混合声道与用户独立声道的双视角音频，还包含角色标签、医疗实体标注及严格的时间对齐信息。其独特价值在于完整保留了对话中的打断重叠现象与低延迟交互特性，通过医疗概念错误率等专项评估指标，有效解决了传统词错误率在临床语境下语义捕捉不足的缺陷，为研究全双工场景下的语音识别与对话管理提供了立体化数据支撑。

使用方法

该数据集支持端到端的全双工对话系统开发与评估，研究者可通过角色拼接音频流进行长上下文语音识别模型训练。在评估层面，除常规词错误率与字错误率外，特别引入基于医疗概念的HC-WER指标，通过疾病、诊疗、药物等专业术语序列的编辑距离计算，精准衡量临床语义保持能力。对话质量评估则结合配对比较与分级量规双协议，利用大语言模型对生成回复的准确性、安全性与连贯性进行多维度量化，为医疗对话系统的实际部署提供标准化验证框架。

背景与挑战

背景概述

在医疗对话自动语音识别领域，真实场景下的全双工交互数据长期匮乏。香港理工大学与蚂蚁集团于2025年联合发布的MMedFD数据集，作为首个中文医疗全双工多轮对话基准，填补了该领域空白。该数据集源自实际部署的AI助手交互记录，包含5,805个标注会话，覆盖136.9小时语音数据，其核心研究聚焦于解决临床对话中的实时语音转写、说话人重叠及低延迟响应等关键问题，为医疗对话系统的标准化评估提供了重要基础设施。

当前挑战

该数据集致力于应对医疗场景下全双工自动语音识别的双重挑战：在领域问题层面，需克服实时对话中的语音重叠干扰、说话人角色混淆、医疗术语准确识别以及低延迟流式处理等核心难题；在构建过程中，面临真实环境声学信号处理、多模态数据同步标注、个人隐私信息脱敏，以及长上下文对话的语义连贯性保持等技术瓶颈，这些挑战共同构成了医疗对话系统在实际部署中的关键障碍。

常用场景

经典使用场景

在临床对话自动语音识别领域，MMedFD数据集为多轮全双工交互场景提供了关键研究基础。该数据集通过真实医患对话录音，支持语音分割、说话人角色识别和重叠语音处理等任务，显著提升了模型在复杂医疗环境中的鲁棒性。其标注体系包含时间戳对齐与角色标签，为探索动态对话中的语音识别边界奠定了数据基石。

解决学术问题

该数据集有效解决了医疗场景中全双工交互带来的三大核心挑战：说话人重叠导致的内容混淆、低延迟要求下的流式处理效率、以及跨轮次对话的语义连贯性维护。通过引入医疗概念错误率指标，将传统词错误率优化为面向临床术语的评估体系，推动自动语音识别技术从通用领域向专业化医疗应用的范式转移。

衍生相关工作

基于该数据集衍生的经典研究包括端到端流式语音识别框架的优化，以及结合大型语言模型的医疗对话生成系统。相关成果推动了说话人日志分析技术与角色感知建模的融合创新，并为跨模态医疗对话系统建立了可复现的评估基准，持续引领全双工语音交互在垂直领域的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集