SEACrowd/librivox_indonesia
收藏数据集概述
LibriVox Indonesia数据集包含MP3音频文件及其对应的文本文件,这些文件是从公共领域的有声书LibriVox中生成的。该数据集仅收集了印度尼西亚的语言。原始的LibriVox有声书或音频文件的时长从几分钟到几小时不等,而数据集中的每个音频文件时长从几秒到最长20秒。通过开发的强制对齐软件,将有声书转换为语音数据集,支持多语言,包括低资源语言,如亚齐语、巴厘语或米南卡保语。数据集目前包含8小时的内容,涵盖7种印度尼西亚语言,并将随着收集的增加而增加更多语言或音频文件。
语言
- ban
- min
- ace
- ind
- sun
- jav
- bug
支持的任务
- 语音识别
数据集使用
使用datasets库
python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/librivox_indonesia", trust_remote_code=True)
使用seacrowd库
python import seacrowd as sc
使用默认配置加载数据集
dset = sc.load_dataset("librivox_indonesia", schema="seacrowd")
检查数据集的所有可用子集(配置名称)
print(sc.available_config_names("librivox_indonesia"))
使用特定配置加载数据集
dset = sc.load_dataset_by_config_name(config_name="<config_name>")
数据集版本
- 源版本: 1.0.0
- SEACrowd版本: 2024.06.20
数据集许可证
CC0
引用
如果使用LibriVox Indonesia数据集,请引用以下内容: plaintext @misc{ research, title={indonesian-nlp/librivox-indonesia · datasets at hugging face}, url={https://huggingface.co/datasets/indonesian-nlp/librivox-indonesia}, author={Indonesian-nlp} }
@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }



