five

MultiMed-ST

收藏
arXiv2025-04-04 更新2025-04-08 收录
下载链接:
https://github.com/leduckhai/MultiMed-ST
下载链接
链接失效反馈
官方服务:
资源简介:
MultiMed-ST是一个大规模的多语言医疗语音翻译数据集,由多伦多大学等机构创建。该数据集包含5种语言(越南语、英语、德语、法语、中文)的医疗对话语音数据,以及通过 Gemini Large Language Model 翻译的文本。数据集共有290,000条样本,是迄今为止最大的医疗机器翻译数据集,也是最大的多对多多语言语音翻译数据集。

MultiMed-ST is a large-scale multilingual medical speech translation dataset created by institutions including the University of Toronto. This dataset contains medical conversational speech data in five languages (Vietnamese, English, German, French, Chinese) and text translated by the Gemini Large Language Model. With a total of 290,000 samples, it is the largest medical machine translation dataset to date, as well as the largest many-to-many multilingual speech translation dataset.
提供机构:
多伦多大学等
创建时间:
2025-04-04
原始信息汇总

MultiMed-ST 数据集概述

数据集基本信息

  • 名称: MultiMed-ST (Large-scale Many-to-many Multilingual Medical Speech Translation)
  • 领域: 医疗领域的多语言语音翻译
  • 语言: 越南语、英语、德语、法语、繁体中文和简体中文
  • 样本数量: 290,000
  • 特点:
    • 目前最大的医疗机器翻译(MT)数据集
    • 所有领域中最大的多对多多语言语音翻译数据集

数据集内容

  • 翻译方向: 涵盖五种语言之间的所有翻译方向
  • 任务覆盖: 自动语音识别(ASR)、机器翻译(MT)、语音翻译(ST)

数据集用途

  • 研究重点:
    • 医疗领域的多语言语音翻译
    • 双语-多语言比较研究
    • 端到端与级联比较研究
    • 任务特定与多任务序列到序列(seq2seq)比较研究
    • 代码切换分析
    • 定量-定性错误分析

数据集获取

相关资源

  • 代码: 包含端到端自动语音识别(ASR)、机器翻译(MT)和语音翻译(ST)的脚本
  • 模型: 基于级联和端到端序列到序列(seq2seq)模型

引用信息

  • 引用说明: 请引用相关论文(待发布在Arxiv)

联系方式

  • 核心开发者:
    • Khai Le-Duc: 多伦多大学,加拿大
      • 邮箱: duckhai.le@mail.utoronto.ca
      • GitHub: https://github.com/leduckhai
    • Tuyen Tran: 河内科技大学,越南
      • 邮箱: tuyencbt@gmail.com
    • Bui Nguyen Kim Hai: 罗兰大学,匈牙利
      • 邮箱: htlulem185@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
MultiMed-ST数据集的构建基于医学自动语音识别数据集,采用多语言多对多翻译策略。首先,利用Gemini大型语言模型进行初始翻译生成,随后由具备C1及以上语言水平和基础医学知识的专业标注人员进行人工校正与交叉验证,确保翻译质量。整个标注过程严格遵循质量控制流程,仅保留获得多位标注者一致认可的样本,最终达成100%的标注者间一致性。数据集涵盖越南语、英语、德语、法语及中文五种语言,总计29万条样本,是目前规模最大的医学机器翻译数据集。
特点
该数据集具有显著的多样性与专业性,覆盖真实世界多说话人医学对话场景,包含10种录音条件、16种口音和6种说话角色,充分反映了医疗环境的复杂性。其多对多翻译方向支持五语言间的任意互译,突破了传统单向翻译的限制。数据集中包含大量医学术语及所有ICD-10编码,为模型训练提供了丰富的领域知识。此外,高达11.2%至12.8%的语码转换现象进一步增强了数据集的现实适用性,适用于处理医疗场景中常见的混合语言表达。
使用方法
MultiMed-ST数据集适用于端到端及级联语音翻译模型的训练与评估。研究人员可基于该数据开展多语言预训练模型微调、双语与多语言训练策略比较、语码转换分析等实验。使用时应首先进行音频预处理,包括格式统一与采样率标准化,随后利用提供的文本转录与翻译对进行模型训练。评估时可结合BLEU、BERTScore等自动指标与人工评估,重点关注翻译的准确性、流畅性及医学术语的一致性。数据集已托管于Hugging Face平台,支持开源社区的直接访问与使用。
背景与挑战
背景概述
MultiMed-ST数据集由多伦多大学、约翰霍普金斯大学等十余家国际研究机构于2025年联合发布,是医学领域首个大规模多语言语音翻译数据集。该数据集涵盖越南语、英语、德语、法语和中文五种语言的全方位互译方向,包含29万条高质量医学对话样本,总时长150小时,源自真实临床场景的多说话人录音。其核心研究目标是突破医疗场景中的语言障碍,通过构建跨语言医疗沟通的基准数据,推动多模态医学自然语言处理的发展。该数据集不仅成为全球规模最大的医学机器翻译资源,更是多对多语音翻译领域最具多样性的基准,为远程医疗、国际医疗协作和公共卫生危机管理提供了关键数据支撑。
当前挑战
医学语音翻译面临双重挑战:领域专业性要求极高,需精准处理医学术语、药物名称和诊断描述的跨语言映射,且错误翻译可能导致临床风险;数据构建过程需克服隐私合规性约束,需对原始医疗录音进行严格脱敏处理。多语言对齐难度显著,部分低资源语言对(如越南语-德语)的平行语料稀缺,需依赖大语言模型生成初译后经医学专业人员交叉验证,人工校正成本达29-58万美元。模型层面需解决语音识别错误传播问题,非标准发音、医疗缩略语及跨语言代码切换现象(如英法混合术语)进一步增加了端到端翻译的复杂度。
常用场景
经典使用场景
在医疗多语言语音翻译研究中,MultiMed-ST数据集被广泛用于构建和评估端到端及级联式语音翻译模型。该数据集支持五种语言间的多对多翻译方向,为研究者提供了真实的医患对话语音及其对应的高质量文本翻译,使得模型能够在跨语言医疗沟通场景中进行训练与验证。其大规模和多样性确保了模型在处理复杂医学术语和不同口音时的鲁棒性,为医疗领域的语音翻译技术奠定了坚实基础。
实际应用
在实际医疗场景中,MultiMed-ST数据集可直接应用于开发实时医患翻译系统,帮助医疗工作者突破语言障碍,提升诊断效率和患者满意度。该系统可部署于医院、诊所或远程医疗平台,支持英语、德语、法语、越南语和中文间的即时语音翻译,尤其适用于国际患者诊疗、紧急医疗响应和多语言健康咨询等场景,显著改善医疗服务的可及性与公平性。
衍生相关工作
基于MultiMed-ST数据集,研究者开发了多种经典医疗翻译模型,如基于Whisper和mBART的级联式翻译系统,以及端到端的SeamlessM4T适配版本。这些工作进一步探索了多任务学习、跨语言迁移和代码切换处理等方向,衍生出如医疗术语标准化、语音翻译错误分析和多模态医疗对话生成等相关研究,推动了整个医疗自然语言处理领域的创新发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作