VoxVietnam
收藏arXiv2024-12-31 更新2025-01-07 收录
下载链接:
http://arxiv.org/abs/2501.00328v1
下载链接
链接失效反馈官方服务:
资源简介:
VoxVietnam是由河内科技大学开发的首个越南语多类型说话人识别数据集,包含来自1,406位说话者的187,980条语音片段,总时长为261小时。数据集涵盖了日常对话中的三种主要语音类型:阅读、自发和歌唱。通过自动化管道从公开资源中构建,数据集具有丰富的类型多样性,能够有效支持多类型语音场景下的说话人识别研究。该数据集的应用领域包括语音识别、说话人验证等,旨在解决多类型语音场景下的模型性能提升问题。
VoxVietnam is the first Vietnamese multi-type speaker recognition dataset developed by Hanoi University of Science and Technology. It contains 187,980 speech segments from 1,406 speakers, with a total duration of 261 hours. The dataset covers three main speech types in daily conversations: read speech, spontaneous speech, and singing. Constructed from public resources via an automated pipeline, it boasts rich type diversity, which can effectively support speaker recognition research in multi-type speech scenarios. Its application domains include speech recognition, speaker verification and others, aiming to address the challenge of improving model performance in multi-type speech scenarios.
提供机构:
河内科技大学
创建时间:
2024-12-31
搜集汇总
数据集介绍

构建方式
VoxVietnam数据集的构建采用了自动化的多阶段流水线技术,结合了深度聚类和多模态清洗方法。首先,通过关键词搜索从公开资源中收集视频播放列表,随后提取音频并进行语音活动检测和说话人分割。接着,利用预训练的说话人编码器对音频进行说话人聚类,并通过视觉辅助清洗步骤去除噪声样本。最后,使用基于深度神经网络的模型对每个话语进行流派分类,确保数据的高质量和多样性。
特点
VoxVietnam数据集是越南语说话人识别领域首个多流派数据集,包含来自1,406名说话者的187,980条话语,总时长261小时。数据集涵盖了阅读、即兴和歌唱三种最常见的语音流派,反映了真实世界中的复杂场景。其话语长度分布和流派比例均与实际应用场景高度一致,尤其是即兴话语占比超过80%,显著提升了模型在多流派场景下的泛化能力。
使用方法
VoxVietnam数据集可用于训练和评估多流派说话人识别模型。研究人员可以通过该数据集进行多流派场景下的模型性能测试,验证模型在不同语音流派间的鲁棒性。此外,数据集还可用于微调现有模型,提升其在复杂语音条件下的识别准确率。实验表明,使用VoxVietnam进行训练能够显著降低多流派测试集上的等错误率(EER),为越南语说话人识别研究提供了强有力的支持。
背景与挑战
背景概述
VoxVietnam数据集是越南语说话人识别领域的首个多类型数据集,由河内科技大学的Hoang Long Vu等研究人员于2024年提出。该数据集包含来自1,406名说话者的187,980条语音片段,总时长261小时,涵盖了阅读、自发对话和歌唱三种最常见的语音类型。VoxVietnam的构建旨在解决现有越南语说话人识别数据集在规模和类型多样性上的不足,特别是在多类型场景下的模型性能问题。通过引入自动化数据构建管道,该数据集不仅显著提升了模型在多类型场景下的表现,还为低资源语言的说话人识别研究提供了宝贵的资源。
当前挑战
VoxVietnam数据集面临的挑战主要体现在两个方面。首先,多类型语音场景下的说话人识别问题极具挑战性,模型在单一类型数据集上训练后,面对多类型测试数据时性能显著下降,错误率可能增加五倍。其次,数据集的构建过程也面临诸多技术难题,包括从公开来源大规模收集高质量语音数据、处理多说话者音频的分离与聚类、以及通过视觉辅助技术清洗噪声样本等。这些挑战要求研究者在数据预处理、模型训练和评估方法上进行创新,以确保数据集的质量和模型的鲁棒性。
常用场景
经典使用场景
VoxVietnam数据集在越南语说话人识别领域中被广泛用于研究多类型语音场景下的模型表现。通过包含超过18万条来自1,406名说话者的语音片段,该数据集涵盖了阅读、自发和歌唱三种常见语音类型,为研究多类型语音对说话人识别模型的影响提供了丰富的实验数据。
衍生相关工作
VoxVietnam数据集的发布推动了多类型说话人识别领域的研究进展。基于该数据集,研究者提出了多种改进模型,如基于元学习和分布对齐的说话人验证方法。此外,该数据集还启发了其他低资源语言的多类型语音数据集的构建,进一步扩展了说话人识别技术的应用范围。
数据集最近研究
最新研究方向
在语音识别领域,多场景下的说话人识别一直是研究的难点之一,尤其是面对不同语音风格(如朗读、即兴发言、歌唱等)的多样性挑战。VoxVietnam数据集的推出填补了越南语多风格说话人识别数据的空白,成为该领域的重要资源。该数据集包含超过18万条语音样本,涵盖1406名说话人,覆盖了朗读、即兴发言和歌唱三种主要语音风格。研究表明,使用单一风格数据训练的模型在多风格测试场景下表现显著下降,而引入VoxVietnam数据集后,模型性能得到显著提升。这一发现为低资源语言的多风格说话人识别研究提供了新的方向,尤其是在跨风格语音识别和模型鲁棒性优化方面。未来,该数据集有望推动更多针对多风格场景的深度学习模型和训练策略的研究,进一步提升语音识别系统在复杂环境下的应用能力。
相关研究论文
- 1VoxVietnam: a Large-Scale Multi-Genre Dataset for Vietnamese Speaker Recognition河内科技大学 · 2024年
以上内容由遇见数据集搜集并总结生成



