vslp2020_vinai_100h_vi_pseudo_labelled
收藏Hugging Face2025-04-21 更新2025-04-22 收录
下载链接:
https://huggingface.co/datasets/datTrantien17/vslp2020_vinai_100h_vi_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含音频及其对应转录文本的数据集,适用于语音识别任务。数据集中的音频采样率为16000Hz,并且每个音频都有其转录文本。此外,还包括了每个音频文件的路径、是否需要依赖前一个样本的条件,以及通过Whisper模型生成的转录文本。整个数据集被划分为训练集、验证集和测试集,分别用于模型的训练、验证和测试。
创建时间:
2025-04-21
搜集汇总
数据集介绍

构建方式
在语音识别研究领域,高质量标注数据的获取往往面临成本与规模的矛盾。vslp2020_vinai_100h_vi_pseudo_labelled数据集采用伪标注技术构建,通过预训练语音模型对原始越南语语音进行自动转录,形成包含11,436条训练样本的语音-文本对。数据经过16kHz采样率的标准处理,划分为训练、验证和测试三组,总规模达11.7GB,确保数据分布的合理性与评估可靠性。
特点
该数据集最显著的特征在于其多模态标注体系,每条语音数据同时包含原始波形、人工转录文本及Whisper模型的伪标注结果,并附带发音连续性标记。114小时的越南语语音覆盖日常对话场景,验证集与测试集分别配置1,464和1,415条样本,为模型调优提供精准的评估基准。音频与文本的双重对齐特性使其成为研究半监督学习的理想素材。
使用方法
研究者可利用该数据集开展端到端语音识别系统的训练与验证,通过对比人工标注与伪标注的差异优化预训练模型。典型工作流程包括:加载16kHz采样的音频波形,结合whisper_transcript字段进行噪声鲁棒性分析,或利用condition_on_prev序列研究上下文依赖建模。数据已预置标准分割方案,支持直接加载train/validation/test子集进行交叉验证。
背景与挑战
背景概述
vslp2020_vinai_100h_vi_pseudo_labelled数据集由越南人工智能研究所(VinAI Research)于2020年构建,旨在推动越南语语音识别领域的研究。该数据集包含约100小时的越南语语音数据,涵盖了丰富的语音场景和多样的说话人特征,为语音识别模型的训练与评估提供了重要资源。其核心研究问题聚焦于低资源语言的语音识别技术,特别是在缺乏大规模标注数据的情况下,如何通过伪标签技术提升模型性能。该数据集的发布显著促进了东南亚语言信息处理的研究,为相关领域的学术和工业应用提供了坚实基础。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题的挑战在于越南语作为低资源语言,其复杂的音系和方言多样性给语音识别带来了显著困难,模型需克服发音变异和背景噪声等问题;构建过程中的挑战则源于数据采集与标注的高成本,伪标签技术的引入虽缓解了人工标注的压力,但如何确保伪标签的准确性及与真实标签的一致性成为关键难题,同时数据平衡性与代表性也需精心设计以避免模型偏见。
常用场景
经典使用场景
在语音识别领域,vslp2020_vinai_100h_vi_pseudo_labelled数据集以其高质量的越南语伪标注音频数据著称,广泛应用于自动语音识别(ASR)模型的训练与评估。该数据集通过提供大量带有转录文本的语音样本,为研究者构建端到端语音识别系统提供了重要资源。其16kHz的采样率与专业标注的文本内容,特别适合探索低资源语言环境下语音转文本的技术挑战。
解决学术问题
该数据集有效缓解了越南语等低资源语言在语音识别研究中数据稀缺的核心问题。通过提供100小时的伪标注语音数据,研究者能够深入探究跨语言迁移学习、半监督学习在ASR任务中的表现。其包含的whisper_transcript字段进一步支持了多模态语音处理研究,为提升非英语语种识别准确率提供了基准测试平台。
衍生相关工作
基于该数据集衍生的经典研究包括越南语语音识别中的自监督预训练方法优化,以及多任务学习框架在低资源语言ASR中的应用。部分工作探索了伪标签质量对模型性能的影响机制,另有研究结合该数据集与wav2vec2.0架构,推动了轻量化语音识别模型在移动端的部署进程。
以上内容由遇见数据集搜集并总结生成



