five

cahya/librivox-indonesia

收藏
Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cahya/librivox-indonesia
下载链接
链接失效反馈
官方服务:
资源简介:
LibriVox Indonesia 1.0数据集是一个多语言的自动语音识别数据集,主要包含印度尼西亚地区的多种语言。数据集来源于LibriVox的公共领域有声读物,经过处理后生成了MP3音频文件和对应的文本文件。数据集目前包含7种语言,总时长为8小时。数据集的创建使用了自研的强制对齐软件,支持多语言处理,尤其是低资源语言。数据集的结构包括音频文件路径、语言、朗读者ID、句子文本以及音频数据。数据集目前仅包含训练集。
提供机构:
cahya
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: LibriVox Indonesia 1.0
  • 数据集简介: 该数据集包含来自LibriVox公共领域有声书的MP3音频及其对应的文本文件。数据集仅收集了印度尼西亚的语言。原始有声书的音频文件时长从几分钟到几小时不等,而数据集中的每个音频文件时长从几秒到最长20秒。
  • 语言: Acehnese, Balinese, Bugisnese, Indonesian, Minangkabau, Javanese, Sundanese
  • 许可证: CC
  • 多语言性: 多语言
  • 数据集大小: 1K<n<10K
  • 源数据集: LibriVox
  • 任务类别: 自动语音识别

数据集结构

数据实例

一个典型的数据点包括音频文件的路径、对应的句子、读者ID和语言。 python { path: librivox-indonesia/sundanese/universal-declaration-of-human-rights/human_rights_un_sun_brc_0000.mp3, language: sun, reader: 3174, sentence: pernyataan umum ngeunaan hak hak asasi manusa sakabeh manusa, audio: { path: librivox-indonesia/sundanese/universal-declaration-of-human-rights/human_rights_un_sun_brc_0000.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 44100 }, }

数据字段

  • path (string): 音频文件的路径
  • language (string): 音频文件的语言
  • reader (string): LibriVox中的读者ID
  • sentence (string): 用户从书中读出的句子
  • audio (dict): 包含下载的音频文件路径、解码的音频数组和采样率的字典

数据分割

音频材料仅包含训练集。

数据集创建

数据集创建理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

公共领域,CC-0

引用信息

[需要更多信息]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作