five

Martha-987/vivos

收藏
Hugging Face2023-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Martha-987/vivos
下载链接
链接失效反馈
官方服务:
资源简介:
VIVOS是一个免费的越南语音频语料库,包含15小时的录音,专为越南语自动语音识别任务准备。该语料库由VNUHCM - 科学大学的AILAB实验室准备,旨在吸引更多科学家解决越南语语音识别问题。数据集包含音频文件、对应的转录文本、说话者ID和音频文件路径,分为训练集和测试集,并根据CC BY-NC-SA 4.0许可发布。

VIVOS is a free Vietnamese speech audio corpus consisting of 15 hours of recordings, specifically designed for Vietnamese automatic speech recognition (ASR) tasks. Developed by the AILAB Laboratory at VNUHCM – University of Science, this corpus aims to attract more researchers to tackle issues related to Vietnamese speech recognition. The dataset encompasses audio files, their corresponding transcriptions, speaker IDs, and audio file paths, and is partitioned into training and test sets. It is released under the CC BY-NC-SA 4.0 license.
提供机构:
Martha-987
原始信息汇总

数据集概述

数据集名称

  • 名称: VIVOS

数据集描述

  • 摘要: VIVOS是一个包含15小时录音的越南语语音数据集,专为越南语自动语音识别任务准备。
  • 语言: 越南语
  • 许可证: Creative Commons Attribution NonCommercial ShareAlike 4.0 (CC BY-NC-SA 4.0)
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 自动语音识别

数据集结构

  • 数据实例: 每个数据点包含音频文件的路径(path)和转录文本(sentence)。
  • 数据字段:
    • speaker_id: 说话者ID
    • path: 音频文件路径
    • audio: 包含音频文件路径、解码音频数组和采样率
    • sentence: 用户被提示说的句子
  • 数据分割:
    • 训练集: 11660个样本,1722002133字节
    • 测试集: 760个样本,86120227字节

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 众包和专家生成
  • 个人和敏感信息: 数据集包含在线捐赠声音的人的信息,用户同意不尝试确定数据集中说话者的身份。

使用数据集的考虑

  • 限制: 数据集仅供研究使用,请检查数据集许可证以获取更多信息。

附加信息

  • 数据集创建者: AILAB,VNUHCM - 大学科学计算机科学实验室

  • 许可证信息: Creative Commons Attribution NonCommercial ShareAlike 4.0 (CC BY-NC-SA 4.0)

  • 引用信息:

    @inproceedings{luong-vu-2016-non, title = "A non-expert {K}aldi recipe for {V}ietnamese Speech Recognition System", author = "Luong, Hieu-Thi and Vu, Hai-Quan", booktitle = "Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies ({WLSI}/{OIAF}4{HLT}2016)", month = dec, year = "2016", address = "Osaka, Japan", publisher = "The COLING 2016 Organizing Committee", url = "https://aclanthology.org/W16-5207", pages = "51--55", }

搜集汇总
数据集介绍
main_image_url
构建方式
VIVOS数据集由AILAB实验室精心构建,旨在为越南语自动语音识别任务提供高质量的语音数据。该数据集包含15小时的录音,涵盖了11660条训练样本和760条测试样本。录音在安静的环境中进行,使用高质量的麦克风,确保语音数据的清晰度和准确性。每个录音样本均包含说话者的唯一标识符、音频文件路径、解码后的音频数组及其对应的文本转录。
特点
VIVOS数据集的主要特点在于其高质量的语音数据和清晰的文本转录,适用于越南语自动语音识别任务。数据集提供了详细的说话者信息和音频文件路径,便于研究人员进行语音识别模型的训练和评估。此外,数据集的音频采样率为16000Hz,确保了音频数据的精细度。
使用方法
使用VIVOS数据集时,研究人员可以通过访问音频文件路径和对应的文本转录来进行模型的训练和测试。数据集提供了训练和测试两个子集,分别包含11660条和760条样本。为了高效处理音频数据,建议先查询样本索引再访问音频列,以避免大规模音频文件解码和重采样带来的时间消耗。
背景与挑战
背景概述
VIVOS数据集是由越南胡志明市国立大学下属的计算机科学实验室AILAB创建的,旨在推动越南语自动语音识别(ASR)领域的研究。该数据集包含15小时的录音,涵盖了11660条训练样本和760条测试样本,主要用于越南语的语音识别任务。数据集的创建旨在吸引更多科学家关注并解决越南语语音识别问题,由AILAB的负责人Vu Hai Quan教授领导。VIVOS数据集的发布为越南语语音识别研究提供了宝贵的资源,推动了该领域的发展。
当前挑战
VIVOS数据集在构建过程中面临的主要挑战包括:首先,越南语作为一种声调语言,其语音识别任务的复杂性较高,尤其是在处理声调和发音变异时。其次,数据集的收集和标注过程需要确保音频质量的一致性,以及文本转录的准确性,这对数据集的构建提出了较高的技术要求。此外,数据集的规模相对较小,如何在有限的资源下提升模型的泛化能力也是一个重要的挑战。最后,数据集的使用需遵守严格的隐私保护规定,确保不泄露语音捐赠者的个人信息。
常用场景
经典使用场景
VIVOS数据集在越南语自动语音识别(ASR)任务中展现了其经典应用场景。该数据集包含了15小时的越南语语音数据,涵盖了多种语音特征和语境,为研究人员提供了一个高质量的基准数据集。通过使用VIVOS,研究者能够训练和评估语音识别模型,特别是在低资源语言环境下,提升模型的准确性和鲁棒性。
实际应用
在实际应用中,VIVOS数据集被广泛用于开发越南语语音识别系统,如语音助手、语音输入法和语音翻译工具等。这些应用不仅提升了用户体验,还在教育、医疗和公共服务等领域发挥了重要作用。通过利用VIVOS数据集,开发者能够构建更加精准和适应性强的语音识别解决方案,满足多样化的市场需求。
衍生相关工作
基于VIVOS数据集,研究者们开展了多项相关工作,包括改进语音识别算法、探索多模态学习方法以及开发低资源语言的语音处理技术。例如,有研究利用VIVOS数据集进行端到端语音识别模型的训练,显著提升了识别精度。此外,VIVOS还激发了针对越南语语音特征的深度学习研究,推动了语音处理领域的技术创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作