AILAB-VNUHCM/vivos

Name: AILAB-VNUHCM/vivos
Creator: AILAB-VNUHCM
Published: 2023-06-14 08:29:21
License: 暂无描述

Hugging Face2023-06-14 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/AILAB-VNUHCM/vivos

下载链接

链接失效反馈

官方服务：

资源简介：

VIVOS是一个免费的越南语音频语料库，包含15小时的录音，专为越南语自动语音识别任务准备。该语料库由VNUHCM - 科学大学的AILAB实验室准备，旨在吸引更多科学家解决越南语语音识别问题。数据集包括音频文件、对应的转录文本、说话者ID和音频文件路径，分为训练和测试集。数据集遵循CC BY-NC-SA 4.0许可，适用于非商业用途。

提供机构：

AILAB-VNUHCM

原始信息汇总

数据集卡片 VIVOS

数据集描述

数据集概述

VIVOS 是一个免费的越南语语音语料库，包含 15 小时的录音，用于越南语自动语音识别任务。该语料库由 AILAB 准备，AILAB 是 VNUHCM - 胡志明市科技大学的一个计算机科学实验室，由 Vu Hai Quan 教授领导。

支持的任务和排行榜

[需要更多信息]

语言

越南语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径（称为 path）及其转录文本（称为 sentence）。还提供了有关说话人和包含转录文本的段落的额外信息。

json { "speaker_id": "VIVOSSPK01", "path": "/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav", "audio": { "path": "/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav", "array": [ -0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449 ], "sampling_rate": 16000 }, "sentence": "KHÁCH SẠN" }

数据字段

speaker_id: 说话人的ID
path: 音频文件的路径
audio: 包含音频文件路径、解码后的音频数组和采样率的字典
sentence: 用户被提示朗读的句子

数据分割

语音材料被分为训练集和测试集。

	训练集	测试集
说话人数量	46	19
话语数量	11660	760
时长	14:55	00:45
独特音节数	4617	1692

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话人的身份。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

数据集仅供研究目的使用。请查看数据集许可证以获取更多信息。

附加信息

数据集策展人

该数据集最初由 AILAB 准备，AILAB 是 VNUHCM - 胡志明市科技大学的一个计算机科学实验室。

许可信息

公共领域，Creative Commons Attribution NonCommercial ShareAlike v4.0（CC BY-NC-SA 4.0）

引用信息

bibtex @inproceedings{luong-vu-2016-non, title = "A non-expert {K}aldi recipe for {V}ietnamese Speech Recognition System", author = "Luong, Hieu-Thi and Vu, Hai-Quan", booktitle = "Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies ({WLSI}/{OIAF}4{HLT}2016)", month = dec, year = "2016", address = "Osaka, Japan", publisher = "The COLING 2016 Organizing Committee", url = "https://aclanthology.org/W16-5207", pages = "51--55", }

贡献

感谢 @binh234 添加此数据集。

搜集汇总

数据集介绍

构建方式

VIVOS数据集由AILAB实验室精心构建，旨在为越南语自动语音识别任务提供丰富的语音数据。该数据集包含15小时的录音，涵盖了11660个训练样本和760个测试样本。录音环境为安静的室内，使用高质量麦克风进行单句录制，确保音频质量。数据集的构建过程中，专家和众包参与者共同参与，确保了数据的高质量和多样性。

使用方法

VIVOS数据集适用于自动语音识别任务，用户可以通过访问数据集中的'path'字段获取音频文件路径，并通过'sentence'字段获取对应的文本转录。在使用过程中，建议用户优先访问样本索引，以避免大规模音频文件解码和重采样带来的时间消耗。数据集的合理使用有助于提升越南语语音识别系统的性能和准确性。

背景与挑战

背景概述

VIVOS数据集由越南胡志明市国家大学下属的计算机科学实验室AILAB创建，旨在推动越南语音识别技术的发展。该数据集包含15小时的录音，涵盖了11660个训练样本和760个测试样本，主要用于自动语音识别任务。VIVOS的创建旨在吸引更多科学家关注并解决越南语音识别问题，其发布标志着越南在该领域研究的重要进展。

当前挑战

VIVOS数据集在构建过程中面临的主要挑战包括数据收集和标准化，特别是在确保录音质量和环境一致性方面。此外，由于越南语的复杂性，如何准确地进行语音转录和标注也是一个重要问题。尽管如此，VIVOS数据集的发布为越南语音识别研究提供了宝贵的资源，但其使用仍需注意数据隐私和潜在的偏见问题。

常用场景

经典使用场景

在语音识别领域，VIVOS数据集的经典使用场景主要集中在越南语自动语音识别（ASR）任务中。该数据集包含了15小时的越南语录音，涵盖了多种语音特征和环境条件，为研究人员提供了一个丰富的资源库，用于训练和评估语音识别模型。通过利用VIVOS数据集，研究者可以开发出更准确、更鲁棒的越南语语音识别系统，从而推动该领域的技术进步。

解决学术问题

VIVOS数据集在学术研究中解决了越南语语音识别的关键问题。由于越南语的复杂性和多样性，现有的语音识别系统在处理越南语时往往表现不佳。VIVOS数据集通过提供高质量的语音数据，帮助研究人员克服了这一难题，推动了越南语语音识别技术的研究进展。此外，该数据集还促进了多语言语音识别模型的开发，为全球语音识别技术的统一和标准化提供了重要参考。

实际应用

在实际应用中，VIVOS数据集为越南语语音识别技术的商业化提供了坚实的基础。例如，在智能语音助手、语音翻译和语音搜索等领域，基于VIVOS数据集训练的模型能够显著提高用户体验。此外，该数据集还被用于开发语音识别相关的教育和培训工具，帮助越南语学习者提高发音准确性。通过这些应用，VIVOS数据集不仅推动了技术的发展，还促进了越南语文化的传播和普及。

数据集最近研究