five

AILAB-VNUHCM/vivos

收藏
Hugging Face2023-06-14 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/AILAB-VNUHCM/vivos
下载链接
链接失效反馈
官方服务:
资源简介:
VIVOS是一个免费的越南语音频语料库,包含15小时的录音,专为越南语自动语音识别任务准备。该语料库由VNUHCM - 科学大学的AILAB实验室准备,旨在吸引更多科学家解决越南语语音识别问题。数据集包括音频文件、对应的转录文本、说话者ID和音频文件路径,分为训练和测试集。数据集遵循CC BY-NC-SA 4.0许可,适用于非商业用途。

VIVOS是一个免费的越南语音频语料库,包含15小时的录音,专为越南语自动语音识别任务准备。该语料库由VNUHCM - 科学大学的AILAB实验室准备,旨在吸引更多科学家解决越南语语音识别问题。数据集包括音频文件、对应的转录文本、说话者ID和音频文件路径,分为训练和测试集。数据集遵循CC BY-NC-SA 4.0许可,适用于非商业用途。
提供机构:
AILAB-VNUHCM
原始信息汇总

数据集卡片 VIVOS

数据集描述

数据集概述

VIVOS 是一个免费的越南语语音语料库,包含 15 小时的录音,用于越南语自动语音识别任务。该语料库由 AILAB 准备,AILAB 是 VNUHCM - 胡志明市科技大学的一个计算机科学实验室,由 Vu Hai Quan 教授领导。

支持的任务和排行榜

[需要更多信息]

语言

越南语

数据集结构

数据实例

一个典型的数据点包括音频文件的路径(称为 path)及其转录文本(称为 sentence)。还提供了有关说话人和包含转录文本的段落的额外信息。

json { "speaker_id": "VIVOSSPK01", "path": "/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav", "audio": { "path": "/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav", "array": [ -0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449 ], "sampling_rate": 16000 }, "sentence": "KHÁCH SẠN" }

数据字段

  • speaker_id: 说话人的ID
  • path: 音频文件的路径
  • audio: 包含音频文件路径、解码后的音频数组和采样率的字典
  • sentence: 用户被提示朗读的句子

数据分割

语音材料被分为训练集和测试集。

训练集 测试集
说话人数量 46 19
话语数量 11660 760
时长 14:55 00:45
独特音节数 4617 1692

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话人的身份。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

数据集仅供研究目的使用。请查看数据集许可证以获取更多信息。

附加信息

数据集策展人

该数据集最初由 AILAB 准备,AILAB 是 VNUHCM - 胡志明市科技大学的一个计算机科学实验室。

许可信息

公共领域,Creative Commons Attribution NonCommercial ShareAlike v4.0(CC BY-NC-SA 4.0

引用信息

bibtex @inproceedings{luong-vu-2016-non, title = "A non-expert {K}aldi recipe for {V}ietnamese Speech Recognition System", author = "Luong, Hieu-Thi and Vu, Hai-Quan", booktitle = "Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies ({WLSI}/{OIAF}4{HLT}2016)", month = dec, year = "2016", address = "Osaka, Japan", publisher = "The COLING 2016 Organizing Committee", url = "https://aclanthology.org/W16-5207", pages = "51--55", }

贡献

感谢 @binh234 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
VIVOS数据集由AILAB实验室精心构建,旨在为越南语自动语音识别任务提供丰富的语音数据。该数据集包含15小时的录音,涵盖了11660个训练样本和760个测试样本。录音环境为安静的室内,使用高质量麦克风进行单句录制,确保音频质量。数据集的构建过程中,专家和众包参与者共同参与,确保了数据的高质量和多样性。
使用方法
VIVOS数据集适用于自动语音识别任务,用户可以通过访问数据集中的'path'字段获取音频文件路径,并通过'sentence'字段获取对应的文本转录。在使用过程中,建议用户优先访问样本索引,以避免大规模音频文件解码和重采样带来的时间消耗。数据集的合理使用有助于提升越南语语音识别系统的性能和准确性。
背景与挑战
背景概述
VIVOS数据集由越南胡志明市国家大学下属的计算机科学实验室AILAB创建,旨在推动越南语音识别技术的发展。该数据集包含15小时的录音,涵盖了11660个训练样本和760个测试样本,主要用于自动语音识别任务。VIVOS的创建旨在吸引更多科学家关注并解决越南语音识别问题,其发布标志着越南在该领域研究的重要进展。
当前挑战
VIVOS数据集在构建过程中面临的主要挑战包括数据收集和标准化,特别是在确保录音质量和环境一致性方面。此外,由于越南语的复杂性,如何准确地进行语音转录和标注也是一个重要问题。尽管如此,VIVOS数据集的发布为越南语音识别研究提供了宝贵的资源,但其使用仍需注意数据隐私和潜在的偏见问题。
常用场景
经典使用场景
在语音识别领域,VIVOS数据集的经典使用场景主要集中在越南语自动语音识别(ASR)任务中。该数据集包含了15小时的越南语录音,涵盖了多种语音特征和环境条件,为研究人员提供了一个丰富的资源库,用于训练和评估语音识别模型。通过利用VIVOS数据集,研究者可以开发出更准确、更鲁棒的越南语语音识别系统,从而推动该领域的技术进步。
解决学术问题
VIVOS数据集在学术研究中解决了越南语语音识别的关键问题。由于越南语的复杂性和多样性,现有的语音识别系统在处理越南语时往往表现不佳。VIVOS数据集通过提供高质量的语音数据,帮助研究人员克服了这一难题,推动了越南语语音识别技术的研究进展。此外,该数据集还促进了多语言语音识别模型的开发,为全球语音识别技术的统一和标准化提供了重要参考。
实际应用
在实际应用中,VIVOS数据集为越南语语音识别技术的商业化提供了坚实的基础。例如,在智能语音助手、语音翻译和语音搜索等领域,基于VIVOS数据集训练的模型能够显著提高用户体验。此外,该数据集还被用于开发语音识别相关的教育和培训工具,帮助越南语学习者提高发音准确性。通过这些应用,VIVOS数据集不仅推动了技术的发展,还促进了越南语文化的传播和普及。
数据集最近研究
最新研究方向
在越南语自动语音识别(ASR)领域,VIVOS数据集的最新研究方向主要集中在提升模型对越南语特有语音特征的识别能力。由于越南语的音节结构和声调系统的复杂性,研究人员致力于开发能够更准确捕捉和解析这些特征的深度学习模型。此外,随着多语言模型的兴起,如何将越南语与其他语言结合,以提高跨语言语音识别的性能,也成为了一个重要的研究热点。这些研究不仅有助于提升越南语语音识别系统的准确性和鲁棒性,还对推动多语言语音技术的融合与发展具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作