VINH123/tiengviet

Name: VINH123/tiengviet
Creator: VINH123
Published: 2023-11-10 10:39:28
License: 暂无描述

Hugging Face2023-11-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/VINH123/tiengviet

下载链接

链接失效反馈

官方服务：

资源简介：

VIVOS是一个免费的越南语语音语料库，包含15小时的录音语音，专门为越南语自动语音识别任务准备。该数据集由VNUHCM - University of Science的AILAB实验室准备，旨在吸引更多科学家解决越南语语音识别问题。数据集包括音频文件路径、音频数据、句子转录等信息，并且分为训练集和测试集。

VIVOS is a free Vietnamese speech corpus consisting of 15 hours of recording speech prepared for Vietnamese Automatic Speech Recognition task. The corpus was prepared by AILAB, a computer science lab of VNUHCM - University of Science, with the aim to attract more scientists to solve Vietnamese speech recognition problems. The dataset includes train and test splits, with 11660 and 760 samples respectively. Each data point comprises the speaker ID, path to the audio file, audio data with its sampling rate, and the corresponding sentence transcription. The creation of the dataset involves crowdsourcing and expert-generated methods, and it is licensed under CC BY-NC-SA 4.0.

提供机构：

VINH123

原始信息汇总

数据集概述

基本信息

数据集名称: VIVOS
语言: 越南语
许可: CC BY-NC-SA 4.0
数据集大小: 10K<n<100K
多语言性: 单语种
任务类别: 自动语音识别

数据集结构

数据实例

一个典型的数据点包含音频文件的路径（path）和其转录文本（sentence），以及说话者的ID（speaker_id）。

数据字段

speaker_id: 说话者的ID
path: 音频文件的路径
audio: 包含音频文件路径、解码后的音频数组和采样率的字典
sentence: 用户被提示说的句子

数据分割

数据集分为训练集和测试集：

训练集:
- 说话者数量: 46
- 话语数量: 11660
- 持续时间: 14:55
- 独特音节: 4617
测试集:
- 说话者数量: 19
- 话语数量: 760
- 持续时间: 00:45
- 独特音节: 1692

数据集创建

数据来源

数据集由AILAB（VNUHCM - University of Science的一个计算机科学实验室）准备。

许可信息

数据集遵循CC BY-NC-SA 4.0许可。

引用信息

@inproceedings{luong-vu-2016-non, title = "A non-expert {K}aldi recipe for {V}ietnamese Speech Recognition System", author = "Luong, Hieu-Thi and Vu, Hai-Quan", booktitle = "Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies ({WLSI}/{OIAF}4{HLT}2016)", month = dec, year = "2016", address = "Osaka, Japan", publisher = "The COLING 2016 Organizing Committee", url = "https://aclanthology.org/W16-5207", pages = "51--55", }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建高质量语音数据集是推动技术发展的基石。VIVOS数据集的构建过程体现了严谨的学术规范，其语料由越南国立大学胡志明市自然科学大学计算机科学实验室（AILAB）主导采集。该数据集通过专业设计的流程，在安静环境中使用高质量麦克风录制，共有65位发音人参与，每位发音人被要求逐句朗读文本。原始语音材料随后被细致地分割为训练集与测试集，其中训练集包含46位发音人的11660条话语，测试集则包含19位发音人的760条话语，总时长约15小时，确保了数据在说话人与内容上的有效划分，为模型训练与评估提供了可靠基础。

特点

作为专注于越南语自动语音识别任务的语料库，VIVOS数据集展现出若干核心特征。其语料规模适中，包含超过1.2万条语音样本，覆盖了4617个独特的音节，具备良好的音素多样性。所有音频均以16kHz采样率保存，保证了语音信号的保真度。数据集结构清晰，每条数据均包含说话人标识、音频文件路径、解码后的音频数组以及对应的文本转录句子，为研究者提供了完整且易于处理的数据单元。此外，数据集遵循CC BY-NC-SA 4.0许可协议，明确了其面向非商业研究用途的定位，促进了学术界的合规使用与共享。

使用方法

在具体应用层面，VIVOS数据集为越南语语音识别模型的开发与评测提供了标准资源。研究者可通过Hugging Face平台便捷加载该数据集，并利用其预定义的数据字段进行访问。需注意的是，为优化处理效率，建议通过样本索引优先访问音频列（如`dataset[0]["audio"]`），以避免大规模音频文件解码与重采样可能带来的性能开销。数据集已预设训练与测试分割，用户可直接用于模型的监督训练与性能评估。鉴于数据集的构建目的，其主要用于学术研究，使用者应遵守许可协议，尊重发音人隐私，不尝试识别说话人身份，以符合伦理规范。

背景与挑战

背景概述

在语音识别技术迅速发展的背景下，越南语作为资源相对稀缺的语言，其自动语音识别系统的构建面临数据匮乏的困境。VIVOS数据集由越南胡志明市国家大学自然科学大学下属的AILAB实验室于2016年创建，主要研究人员包括Luong Hieu-Thi与Vu Hai-Quan教授。该数据集旨在为越南语自动语音识别任务提供高质量的语音语料，包含约15小时的录音，涵盖46名说话者的训练集和19名说话者的测试集。其发布促进了越南语语音处理领域的研究，为后续模型开发奠定了数据基础，并在学术界引发了更广泛的关注。

当前挑战

VIVOS数据集致力于解决越南语自动语音识别任务中的挑战，包括越南语音素复杂、声调变化丰富以及缺乏大规模标注数据等问题。在构建过程中，数据收集面临环境噪音控制、说话者口音多样性平衡以及高质量录音设备统一等挑战。此外，数据标注需确保转录文本的准确性，同时保护说话者隐私信息，避免身份泄露。这些挑战共同影响了数据集的规模与质量，进而制约了模型性能的进一步提升。

常用场景

经典使用场景

在越南语语音识别研究领域，VIVOS数据集作为一项关键资源，其经典使用场景集中于构建和评估端到端的自动语音识别系统。该数据集包含15小时的越南语语音录音及对应文本转录，覆盖多样化的发音和语境，为研究者提供了标准化的训练与测试基准。通过利用该数据集，学者能够系统地开发声学模型与语言模型，优化语音到文本的转换流程，从而推动越南语语音识别技术的精准度与鲁棒性提升。

实际应用

在实际应用层面，VIVOS数据集为越南语智能语音系统的开发奠定了坚实基础。其语音数据可广泛应用于智能助手、语音搜索、实时字幕生成及语音控制设备等场景，助力提升越南语用户的数字交互体验。在商业与教育领域，该数据集支持语音转录服务的优化，促进远程教育、客户服务自动化及无障碍技术的普及，从而推动越南语区社会的信息化进程与技术普惠。

衍生相关工作

围绕VIVOS数据集，已衍生出多项经典研究工作，包括基于Kaldi工具链的越南语语音识别系统构建，以及后续的端到端深度学习模型探索。这些工作不仅验证了数据集在传统隐马尔可夫模型与深度神经网络中的有效性，还激发了针对越南语音素特性、声调建模及数据增强方法的创新研究。此外，该数据集为跨语言语音识别、低资源语言迁移学习等国际课题提供了实证基础，促进了全球语音技术社区的协作与知识共享。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集