SEACrowd/librivox_indonesia

Name: SEACrowd/librivox_indonesia
Creator: SEACrowd
Published: 2024-06-24 13:23:29
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/librivox_indonesia

下载链接

链接失效反馈

官方服务：

资源简介：

LibriVox Indonesia数据集包含从LibriVox公共领域有声读物生成的MP3音频和相应的文本文件，涵盖了印度尼西亚的多种语言。音频文件的时长从几秒到最多20秒不等，总时长为8小时，涉及7种语言。数据集通过强制对齐软件生成，支持多语言，包括低资源语言。数据集主要用于语音识别任务。

提供机构：

SEACrowd

原始信息汇总

数据集概述

LibriVox Indonesia数据集包含MP3音频文件及其对应的文本文件，这些文件是从公共领域的有声书LibriVox中生成的。该数据集仅收集了印度尼西亚的语言。原始的LibriVox有声书或音频文件的时长从几分钟到几小时不等，而数据集中的每个音频文件时长从几秒到最长20秒。通过开发的强制对齐软件，将有声书转换为语音数据集，支持多语言，包括低资源语言，如亚齐语、巴厘语或米南卡保语。数据集目前包含8小时的内容，涵盖7种印度尼西亚语言，并将随着收集的增加而增加更多语言或音频文件。

语言

支持的任务

语音识别

数据集使用

使用`datasets`库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/librivox_indonesia", trust_remote_code=True)

使用`seacrowd`库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("librivox_indonesia", schema="seacrowd")

检查数据集的所有可用子集（配置名称）

print(sc.available_config_names("librivox_indonesia"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集许可证

CC0

引用

如果使用LibriVox Indonesia数据集，请引用以下内容： plaintext @misc{ research, title={indonesian-nlp/librivox-indonesia · datasets at hugging face}, url={https://huggingface.co/datasets/indonesian-nlp/librivox-indonesia}, author={Indonesian-nlp} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集