MMedFD

github2025-09-25 更新2025-09-26 收录

下载链接：

https://github.com/Kinetics-JOJO/MMedFD

下载链接

链接失效反馈

官方服务：

资源简介：

MMedFD是首个面向多轮全双工场景的真实世界中文医疗自动语音识别语料库，采集自已部署的AI助手，包含5,805个标注会话，具有同步的用户和混合声道视图、RTTM/CTM时间戳及角色标签，专为医疗场景下的流式ASR和端到端双工智能体基准测试而设计。

MMedFD is the first real-world Chinese medical automatic speech recognition (ASR) corpus for multi-turn full-duplex scenarios. It is collected from deployed AI assistants, comprising 5,805 annotated conversations, and features synchronized user and mixed-channel views, RTTM/CTM timestamps as well as speaker role labels. It is specifically designed for benchmarking streaming ASR and end-to-end duplex AI agents in medical scenarios.

创建时间：

2025-09-18

原始信息汇总

MMedFD 数据集概述

数据集基本信息

数据集名称：MMedFD
全称：A Real-world Healthcare Benchmark for Multi-turn Full-Duplex Automatic Speech Recognition
论文链接：https://arxiv.org/abs/2509.19817
数据集状态：专有数据集，当前未公开
预计公开平台：Huggingface
预计公开时间：本周内发布链接

数据集特点

应用领域：医疗健康领域的自动语音识别（ASR）
语言：中文
场景：真实世界临床对话
核心挑战：全双工交互、说话人重叠、低延迟约束
数据规模：5,805个标注会话

数据内容

数据来源：已部署的AI助手采集
标注信息：
- 同步的用户和混合通道视图
- RTTM/CTM时间戳
- 角色标签
评估指标：
- 词错误率（WER）
- 字错误率（CER）
- 医疗概念级准确率（HC-WER）

访问权限

访问要求：需要内部批准和研究专用的数据使用协议
数据限制：仅可共享去标识化数据，禁止重新分发
联系方式：yangxiao.wxy@antgroup.com
申请材料：需提供隶属机构、项目目标、预期用途和数据保护计划的简要说明

技术贡献

创新点：首个面向多轮全双工设置的真实世界中文医疗ASR语料库
技术框架：模型无关的流式分割、说话人归因和对话记忆流水线
基准测试：为流式ASR和端到端双工代理在医疗部署中的基准测试提供可复现框架

引用信息

bibtex @misc{chen2025mmedfdrealworldhealthcarebenchmark, title={MMedFD: A Real-world Healthcare Benchmark for Multi-turn Full-Duplex Automatic Speech Recognition}, author={Hongzhao Chen and XiaoYang Wang and Jing Lan and Hexiao Ding and Yufeng Jiang MingHui Yang and DanHui Xu and Jun Luo and Nga-Chun Ng and Gerald W. Y. Cheng and Yunlin Mao and Jung Sun Yoo}, year={2025}, eprint={2509.19817}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2509.19817}, }

搜集汇总

数据集介绍

构建方式

在临床对话自动语音识别领域，MMedFD数据集的构建采用了真实医疗场景下的多轮全双工交互数据。该数据集源自实际部署的AI助手系统，通过同步采集用户与混合通道的音频流，并辅以精细的时间标注和角色标签。构建过程中运用了流式分割技术和说话人归属判定方法，确保对话序列的时序连贯性与角色辨识准确性。数据标注涵盖5,805个对话会话，每个会话均包含角色拼接的长音频及对应的医疗场景概念标注，为全双工语音交互研究提供了结构化基础。

特点

MMedFD数据集的核心特征体现在其针对医疗场景的全双工对话复杂性。数据集不仅包含传统语音识别所需的音频与文本对齐信息，还创新性地引入了混合通道视图和角色标签，能够有效模拟临床环境中说话人重叠的低延迟交互。其独特的医疗概念级准确度评估指标HC-WER，可精准衡量专业术语的识别效果。相较于现有基准，该数据集首次实现了真实医疗场景下多轮对话的时序标注与角色分离，为流式语音识别和端到端对话代理提供了多维度的评估框架。

使用方法

该数据集的使用需通过研究申请流程获取授权，获批后可基于HuggingFace平台加载数据。研究人员可利用提供的Whisper模型微调流程，通过Parquet格式的数据文件进行模型训练与推理。训练脚本支持多种模型尺寸配置，并内置梯度检查点优化机制以提升内存效率。推理阶段可通过调整音频分块长度与批处理大小平衡性能，输出结果包含原始文本与预测文本的对比。评估模块集成CER、WER及医疗专属的HC-WER指标，同时提供基于GPT-5的LLM响应质量评估工具，确保研究结果的可复现性与可比性。

背景与挑战

背景概述

在临床对话自动语音识别领域，真实场景下的全双工交互模式对系统鲁棒性提出严峻考验。MMedFD数据集由蚂蚁集团等机构于2025年联合发布，作为首个面向中文医疗场景的多轮全双工语音识别基准，其核心价值在于填补了医疗对话系统中重叠语音识别与低延迟处理的实证研究空白。该数据集基于实际部署的AI助手构建，包含5,805段标注会话，不仅提供同步的双声道音频数据，更创新性地引入角色标签与对话记忆机制，为医疗对话智能体的端到端评估建立了可复现的科研框架。

当前挑战

医疗场景的全双工语音识别需攻克三大技术壁垒：首先是重叠语音的精准分离与角色归属判定，尤其在医患对话快速交替的语境下；其次是如何在保证低延迟的前提下实现长上下文语音的连贯识别，这对流式处理算法提出极高要求。数据集构建过程中，医疗数据的隐私保护与脱敏处理构成核心挑战，需通过严格的数据使用协议确保合规性。同时，真实临床对话中专业术语的多样性、方言变体及非标准发音现象，对标注一致性与概念级准确性评估标准HC-WER的制定形成显著考验。

常用场景

经典使用场景

在临床对话自动语音识别领域，MMedFD数据集为多轮全双工交互场景提供了关键支持。该数据集通过标注真实医疗环境中的同步用户和混合声道音频，结合角色标签和时序信息，成为评估流式语音识别系统在重叠说话和低延迟约束下性能的基准平台。研究人员能够基于这一资源开展模型训练与验证，推动医疗对话系统的精准转录能力发展。

解决学术问题

MMedFD数据集有效应对了医疗场景中全双工语音识别缺乏公开基准的学术挑战。其通过引入角色级联音频处理和医疗概念准确度指标，解决了多说话人重叠、长上下文建模以及领域术语识别等核心问题。这一工作为流式语音识别算法在复杂交互环境中的鲁棒性评估提供了标准化框架，显著提升了临床对话分析的可复现性与可比性。

衍生相关工作

基于MMedFD数据集衍生的经典研究集中在流式语音识别与端到端对话系统的融合创新上。例如，采用Whisper模型进行角色感知的音频微调，结合对话记忆机制的长上下文处理方案，已成为该领域的重要参考。后续工作进一步拓展了LLM评估协议与医疗概念级指标，推动了多模态临床助手在低延迟环境下的算法演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集