cahya/librivox-indonesia
收藏Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cahya/librivox-indonesia
下载链接
链接失效反馈官方服务:
资源简介:
LibriVox Indonesia 1.0数据集是一个多语言的自动语音识别数据集,主要包含印度尼西亚地区的多种语言。数据集来源于LibriVox的公共领域有声读物,经过处理后生成了MP3音频文件和对应的文本文件。数据集目前包含7种语言,总时长为8小时。数据集的创建使用了自研的强制对齐软件,支持多语言处理,尤其是低资源语言。数据集的结构包括音频文件路径、语言、朗读者ID、句子文本以及音频数据。数据集目前仅包含训练集。
提供机构:
cahya
原始信息汇总
数据集概述
数据集描述
- 数据集名称: LibriVox Indonesia 1.0
- 数据集简介: 该数据集包含来自LibriVox公共领域有声书的MP3音频及其对应的文本文件。数据集仅收集了印度尼西亚的语言。原始有声书的音频文件时长从几分钟到几小时不等,而数据集中的每个音频文件时长从几秒到最长20秒。
- 语言: Acehnese, Balinese, Bugisnese, Indonesian, Minangkabau, Javanese, Sundanese
- 许可证: CC
- 多语言性: 多语言
- 数据集大小: 1K<n<10K
- 源数据集: LibriVox
- 任务类别: 自动语音识别
数据集结构
数据实例
一个典型的数据点包括音频文件的路径、对应的句子、读者ID和语言。 python { path: librivox-indonesia/sundanese/universal-declaration-of-human-rights/human_rights_un_sun_brc_0000.mp3, language: sun, reader: 3174, sentence: pernyataan umum ngeunaan hak hak asasi manusa sakabeh manusa, audio: { path: librivox-indonesia/sundanese/universal-declaration-of-human-rights/human_rights_un_sun_brc_0000.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 44100 }, }
数据字段
path(string): 音频文件的路径language(string): 音频文件的语言reader(string): LibriVox中的读者IDsentence(string): 用户从书中读出的句子audio(dict): 包含下载的音频文件路径、解码的音频数组和采样率的字典
数据分割
音频材料仅包含训练集。
数据集创建
数据集创建理由
[需要更多信息]
源数据
初始数据收集和规范化
[需要更多信息]
源语言生产者
[需要更多信息]
注释
注释过程
[需要更多信息]
注释者
[需要更多信息]
个人和敏感信息
[需要更多信息]
使用数据的注意事项
数据集的社会影响
[需要更多信息]
偏见的讨论
[需要更多信息]
其他已知限制
[需要更多信息]
附加信息
数据集策展人
[需要更多信息]
许可信息
公共领域,CC-0
引用信息
[需要更多信息]



