VietMed_labeled

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/minhvn1433/VietMed_labeled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频文件及其文本转录，同时标注了说话人ID和字符级的时间戳信息。音频采样率为16kHz，每条数据包含以下字段：音频文件、转录文本、说话人ID，以及字符列表（含字符内容、开始时间和结束时间）。数据集划分为训练集（2,858条，约64.7MB）、验证集（2,912条，约63.9MB）和测试集（3,437条，约69.6MB），总下载大小约197.7MB。适用于语音识别、说话人识别或音素级语音分析等任务。

创建时间：

2026-05-02

原始信息汇总

数据集概述：VietMed_labeled

数据集链接： https://huggingface.co/datasets/minhvn1433/VietMed_labeled

数据集描述： VietMed_labeled 是一个包含越南语医疗领域音频数据的标注数据集，可用于语音识别（ASR）等相关任务。

数据特征：

audio： 音频数据，采样率为 16000 Hz
transcription： 音频对应的文本转录（字符串类型）
Speaker ID： 说话人标识（字符串类型）
characters： 字符级时间标注信息，包含：
- char： 字符文本（字符串类型）
- start： 开始时间（浮点数，单位秒）
- end： 结束时间（浮点数，单位秒）

数据集划分：

划分	样本数量	字节数
train	2,858	64,958,256
validation	2,912	64,132,729
test	3,437	69,654,857

数据集规模：

下载大小：198,166,347 字节（约 189 MB）
数据集总大小：198,745,842 字节（约 190 MB）

配置文件：

默认配置名为 default，包含三个数据文件划分：
- train：data/train-*
- validation：data/validation-*
- test：data/test-*

搜集汇总

数据集介绍

构建方式

VietMed_labeled数据集是面向越南语医学领域语音识别任务构建的高质量标注资源。该数据集基于真实临床对话场景，将原始音频数据以16kHz采样率进行标准化处理，并精细转录为文本。每个音频样本均关联了说话人身份标识（Speaker ID），同时引入字符级时间戳标注，记录每个字符（char）在音频中的起始位置（start）与结束位置（end）。数据划分为训练集（2858条）、验证集（2912条）和测试集（3437条），确保模型训练与评估的独立性。

特点

该数据集的核心特色在于其医学领域专精性与细粒度标注结构。音频与文本的严格对齐，结合字符级起止时间标记（float64精度），为端到端语音识别模型提供了时空双重维度的监督信号。说话人身份字段有助于分离多说话人场景，而越南语医学对话的领域聚焦性，则强化了模型在专业词汇与特定口语模式上的识别能力。数据集规模适中，但标注质量与领域针对性使其成为稀缺的越南语医学语音资源。

使用方法

用户可通过HuggingFace Datasets库便捷加载数据，利用默认配置（default）自动获取分割的音频文件与对应字段。在模型训练时，可直接提取'audio'字段作为输入，以'transcription'为文本目标，配合字符级边界信息进行CTC或Seq2Seq学习。'Speaker ID'可用于辅助声学特征建模或说话人适应技术。建议将数据集用于越南语医疗对话的语音识别系统开发、说话人识别研究或跨语言医学语音任务的基准测试。

背景与挑战

背景概述

在自动语音识别（ASR）领域，医疗对话数据的稀缺性长期制约着低资源语言的技术发展。VietMed_labeled数据集由越南研究机构于近年创建，聚焦于越南语医疗领域的语音转录任务，包含大量医生与患者之间的真实对话音频及对应文本标注。该数据集覆盖了超过9200条语音片段，按训练、验证和测试集划分，能够支持跨说话人的鲁棒性评估。其核心研究问题是构建面向医疗场景的越南语语音识别系统，填补了该语言在专业领域标注数据集的空白，为提升东南亚语种在医疗信息化中的应用提供了基础资源。

当前挑战

该数据集的领域挑战集中于两方面：一是医疗对话中特有的专业术语、口语化表达及嘈杂环境音给语音识别模型带来的准确性瓶颈，尤其越南语作为声调语言，其音调变异在临床场景中更容易被误判；二是数据集构建过程中面临的标注一致性难题，由于医疗对话涉及多个说话人、重叠语音及不完整句子，人工转录与时间戳对齐的误差控制极为困难，且9200余条样本的规模对于深度学习模型训练仍显不足，可能限制泛化能力。

常用场景

经典使用场景

在医疗对话智能处理领域，VietMed_labeled数据集为越南语医患对话的语音识别与自然语言理解提供了高质量的基础资源。该数据集包含近万条经过字符级时间标注的音频-文本对，采样率为16kHz，覆盖训练、验证和测试三个标准分割，适用于构建端到端的医学语音识别系统。其经典使用场景聚焦于医疗领域的自动语音转录，借助精确的字符起止时间信息，研究人员可开展时序对齐的语音识别模型训练或细粒度的语音分割任务。

衍生相关工作

围绕VietMed_labeled数据集，研究者衍生出多项创新工作：基于字符级别时间标注的语音端点检测算法被提出，提升了医学对话的片段分割精度。迁移学习与数据增强技术被用于扩展模型至其他东南亚语言的医疗语音识别。此外，该数据集激发了面向低资源场景的弱监督预训练策略，以及与大型语言模型结合的医疗对话理解系统，显著促进了医学自然语言处理在资源受限环境中的发展。

数据集最近研究