AILAB-VNUHCM/vivos
收藏数据集卡片 VIVOS
数据集描述
数据集概述
VIVOS 是一个免费的越南语语音语料库,包含 15 小时的录音,用于越南语自动语音识别任务。该语料库由 AILAB 准备,AILAB 是 VNUHCM - 胡志明市科技大学的一个计算机科学实验室,由 Vu Hai Quan 教授领导。
支持的任务和排行榜
[需要更多信息]
语言
越南语
数据集结构
数据实例
一个典型的数据点包括音频文件的路径(称为 path)及其转录文本(称为 sentence)。还提供了有关说话人和包含转录文本的段落的额外信息。
json { "speaker_id": "VIVOSSPK01", "path": "/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav", "audio": { "path": "/home/admin/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/vivos/train/waves/VIVOSSPK01/VIVOSSPK01_R001.wav", "array": [ -0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449 ], "sampling_rate": 16000 }, "sentence": "KHÁCH SẠN" }
数据字段
speaker_id: 说话人的IDpath: 音频文件的路径audio: 包含音频文件路径、解码后的音频数组和采样率的字典sentence: 用户被提示朗读的句子
数据分割
语音材料被分为训练集和测试集。
| 训练集 | 测试集 | |
|---|---|---|
| 说话人数量 | 46 | 19 |
| 话语数量 | 11660 | 760 |
| 时长 | 14:55 | 00:45 |
| 独特音节数 | 4617 | 1692 |
数据集创建
策划理由
[需要更多信息]
源数据
初始数据收集和规范化
[需要更多信息]
源语言生产者是谁?
[需要更多信息]
注释
注释过程
[需要更多信息]
注释者是谁?
[需要更多信息]
个人和敏感信息
该数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话人的身份。
使用数据的注意事项
数据集的社会影响
[需要更多信息]
偏见的讨论
[需要更多信息]
其他已知限制
数据集仅供研究目的使用。请查看数据集许可证以获取更多信息。
附加信息
数据集策展人
该数据集最初由 AILAB 准备,AILAB 是 VNUHCM - 胡志明市科技大学的一个计算机科学实验室。
许可信息
公共领域,Creative Commons Attribution NonCommercial ShareAlike v4.0(CC BY-NC-SA 4.0)
引用信息
bibtex @inproceedings{luong-vu-2016-non, title = "A non-expert {K}aldi recipe for {V}ietnamese Speech Recognition System", author = "Luong, Hieu-Thi and Vu, Hai-Quan", booktitle = "Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies ({WLSI}/{OIAF}4{HLT}2016)", month = dec, year = "2016", address = "Osaka, Japan", publisher = "The COLING 2016 Organizing Committee", url = "https://aclanthology.org/W16-5207", pages = "51--55", }
贡献
感谢 @binh234 添加此数据集。




