ViMedCSS

Name: ViMedCSS
Creator: 越南维纳大学·工程与计算机科学学院; 越南维纳大学·人工智能研究中心; 越南维纳大学·健康科学学院; 悉尼科技大学
Published: 2026-02-13 21:17:16
License: 暂无描述

arXiv2026-02-13 更新2026-02-17 收录

下载链接：

https://huggingface.co/datasets/tensorxt/ViMedCSS

下载链接

链接失效反馈

官方服务：

资源简介：

ViMedCSS是由越南维纳大学与悉尼科技大学联合构建的首个越南医学代码转换语音数据集，包含16,576条共计34.57小时的语音片段，每条片段均包含至少一个嵌入越南语句子的英语医学术语。数据集基于64,232条目的Meddict双语医学词典，筛选出3,203个代码转换术语作为数据核心，通过YouTube医疗视频爬取、大语言模型辅助转录及语义过滤等流程构建而成。其内容覆盖医学科学、病理学与病原体、治疗方法、营养学和诊断学五大主题，包含889个独特医学术语，长尾分布显著。该数据集旨在解决低资源越南语环境下医疗代码转换语音识别的技术难题，为临床文档自动化、医学教育等场景提供基准支持。

ViMedCSS is the first Vietnamese medical code-switching speech dataset jointly developed by VinUniversity and the University of Technology Sydney. It consists of 16,576 speech segments totaling 34.57 hours, where each segment contains at least one English medical term embedded in a Vietnamese sentence. The dataset is constructed based on the Meddict bilingual medical dictionary with 64,232 entries, and 3,203 code-switching terms were screened out as the core of the dataset via workflows including crawling medical videos from YouTube, large language model (LLM) assisted transcription, and semantic filtering. Its content covers five major themes: medical sciences, pathology and pathogens, treatment modalities, nutrition, and diagnostics, containing 889 unique medical terms with a significant long-tail distribution. This dataset aims to address the technical challenges of medical code-switching speech recognition in low-resource Vietnamese environments, and provides benchmark support for scenarios such as clinical documentation automation and medical education.

提供机构：

越南维纳大学·工程与计算机科学学院; 越南维纳大学·人工智能研究中心; 越南维纳大学·健康科学学院; 悉尼科技大学

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在越南医学领域，语码转换现象普遍存在，为构建高质量数据集，研究团队采用系统化流程。首先从包含六万余条目的双语医学词典中筛选出三千余个保留英文原形的医学术语作为语码转换词库。随后，利用这些术语作为查询词，从公开平台自动检索并筛选出越南语医学视频，通过大语言模型进行语音转写与时间戳对齐，自动识别包含语码转换的语句。经过语义过滤去除非越南语或非医学内容，并对术语进行规范化处理，最终通过人工校验确保音频片段与文本的精确对齐，形成包含一万六千余条话语、总时长约三十四小时的数据集。

特点

该数据集的核心特征在于其专注于越南医学场景下的语码转换语音，每条话语均保证至少包含一个嵌入的英文医学术语，涵盖了医学科学、病理学与病原体、治疗方法、营养学及诊断学五大主题。数据分布呈现长尾特性，既包含高频术语，也特意保留了大量低频或罕见术语，并设立了独立的困难测试集以评估模型对新术语的泛化能力。话语时长集中在三至二十九秒之间，符合自然对话节奏，同时数据划分严格遵循说话者与主题的多样性，确保了评估的全面性与可靠性。

使用方法

该数据集主要服务于低资源语言环境下自动语音识别系统的开发与评估。研究者可利用其训练集对模型进行微调，特别适用于探索参数高效适配、上下文偏置解码等针对语码转换的优化策略。通过提供的开发集、测试集及困难集，能够系统评估模型在整体准确率、语码转换片段准确率以及面对未见术语时的泛化性能。数据集为比较越南语优化模型与多语言模型在医学领域语码转换任务上的表现提供了基准，助力于开发更鲁棒、更精准的领域专用语音识别系统。

背景与挑战

背景概述

在越南医疗沟通中，语码转换现象普遍存在，临床术语常以英语形式嵌入越南语语境，这为自动语音识别系统带来了独特挑战。针对低资源语言环境下医疗领域语码转换研究的数据匮乏问题，由越南维纳大学与悉尼科技大学等机构的研究团队于2026年共同创建了ViMedCSS数据集。该数据集聚焦于解决越南语医疗语音中英语术语的精准识别难题，通过构建包含34小时语音、覆盖五大医疗主题的标注语料，首次为越南语医疗语码转换研究提供了系统化基准。这项工作的开展不仅填补了该领域公开数据资源的空白，更为低资源多语言语音识别系统的领域适应研究提供了重要实验平台。

当前挑战

ViMedCSS数据集致力于解决医疗领域自动语音识别中语码转换现象带来的核心挑战，即如何准确识别嵌入在越南语句子中的英语医疗术语。在构建过程中面临多重技术难题：首先需要从海量公开视频中筛选出符合医疗领域且包含语码转换的语音片段，这涉及复杂的领域过滤与语义分析；其次，语码转换术语的标注需要高精度的时间对齐与术语归一化处理，以确保数据一致性；再者，数据集的构建必须平衡术语分布的广泛性与代表性，既要覆盖常见医疗词汇，也要包含低频专业术语以测试模型泛化能力；最后，在保证数据质量的同时还需严格遵守伦理规范，确保所有语料均来自公开资源且不涉及患者隐私信息。

常用场景

经典使用场景

在越南医疗领域的自动语音识别研究中，ViMedCSS数据集被广泛用于评估和优化模型对代码转换现象的处理能力。该数据集精心构建了包含英语医学术语嵌入越南语句子的语音样本，覆盖医学科学、病理学与病原体、治疗方法、营养学及诊断学五大主题。研究者利用这一资源，系统测试了从多语言预训练模型到越南语优化变体等多种自动语音识别架构，通过对比整体准确率与代码转换片段准确率，深入探究模型在混合语言环境下的表现差异。

实际应用

在实际医疗场景中，ViMedCSS数据集为开发高可靠性的临床语音转录系统提供了关键支持。越南医护人员在诊疗、教学及患者沟通中常混合使用英语医学术语，自动语音识别系统的准确转录关乎医疗安全与文档质量。基于该数据集训练的模型，能够更精准地识别药物名称、解剖结构及诊断程序等关键术语，从而减少临床记录错误，提升医疗培训材料的清晰度。此类系统还可集成到远程医疗平台与电子健康记录系统中，助力实现高效、无误的多语言医疗沟通。

衍生相关工作

围绕ViMedCSS数据集，衍生出一系列聚焦于代码转换语音识别的经典研究工作。这些工作深入探索了参数高效微调策略，例如注意力引导适配器与低秩自适应技术，在越南语优化模型上的应用效果。同时，研究者结合上下文偏置方法，如动态词汇注入与排名选择机制，进一步提升了模型对罕见医学术语的泛化能力。这些方法在PhoWhisper等骨干模型上的系统比较，为低资源多语言自动语音识别领域提供了重要的技术范式与优化路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集