indonesian-nlp/librivox-indonesia

Name: indonesian-nlp/librivox-indonesia
Creator: indonesian-nlp
Published: 2024-10-31 23:30:35
License: 暂无描述

Hugging Face2024-10-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/indonesian-nlp/librivox-indonesia

下载链接

链接失效反馈

官方服务：

资源简介：

LibriVox Indonesia数据集由MP3音频文件和相应的文本文件组成，这些文件是从LibriVox的公共领域有声读物生成的。该数据集仅收集了印度尼西亚的语言。原始的LibriVox有声读物或音频文件的时长从几分钟到几小时不等，而在该数据集中，每个音频文件的时长从几秒到最多20秒。数据集目前包含7种印度尼西亚语言，总时长为8小时。数据集的创建使用了自开发的强制对齐软件，支持包括低资源语言在内的多语言处理。数据集的结构包括音频文件路径、语言、朗读者ID、句子以及音频数据。

The LibriVox Indonesia dataset consists of MP3 audio files and their corresponding text files, which are generated from LibriVox's public-domain audiobooks. This dataset exclusively collects audio recordings in Indonesian languages. The original LibriVox audiobooks feature durations ranging from several minutes to multiple hours, whereas each audio clip in this dataset has a duration spanning from a few seconds up to a maximum of 20 seconds. At present, the dataset covers 7 Indonesian languages, with a total audio duration of 8 hours. The dataset was developed using an in-house built forced alignment software that supports multilingual processing, including low-resource languages. The dataset's structure includes audio file paths, language information, speaker IDs, transcribed sentences, and audio data.

提供机构：

indonesian-nlp

原始信息汇总

数据集概述

数据集名称

名称: LibriVox Indonesia 1.0

数据集描述

摘要: LibriVox Indonesia 数据集包含MP3音频及其对应的文本文件，这些数据源自公共领域的有声书LibriVox。该数据集专注于印度尼西亚的语言，音频文件时长从几秒到最多20秒不等。数据集目前包含7种印度尼西亚语言，总计8小时的音频。
支持的任务: 自动语音识别
语言: Acehnese, Balinese, Bugisnese, Indonesian, Minangkabau, Javanese, Sundanese

数据集结构

数据实例: 每个数据点包含音频文件的路径、句子、读者ID和语言。
数据字段:
- path: 音频文件路径
- language: 音频文件语言
- reader: 读者ID
- sentence: 读者朗读的句子
- audio: 包含音频文件路径、解码后的音频数组和采样率
数据分割: 仅包含训练集

数据集创建

许可证: 公共领域，CC-0
多语言性: 支持多语言，包括低资源语言
数据集大小: 1K<n<10K
数据来源: LibriVox

数据集使用考虑

许可证: 数据集使用公共领域许可证，允许广泛使用和分发。
多语言支持: 数据集支持多种印度尼西亚语言，适合于多语言自动语音识别研究。
数据集大小: 数据集规模适中，适合中小规模的研究和模型训练。

搜集汇总

数据集介绍

构建方式

在语音识别领域，构建多语言数据集对于促进语言技术发展至关重要。LibriVox Indonesia数据集源自公共领域的有声读物平台LibriVox，通过精心设计的流程转化而成。研究团队利用自主研发的强制对齐软件，将原始长篇音频分割为时长不超过20秒的片段，并自动生成对应的文本转录。这一过程特别支持印度尼西亚境内的多种语言，包括资源相对匮乏的方言，无需为每种语言单独训练模型，体现了高效的数据工程策略。

特点

该数据集的核心价值在于其多语言覆盖与精心处理的结构。它囊括了印度尼西亚的七种主要语言，如亚齐语、巴厘语和爪哇语等，为研究语言多样性提供了宝贵资源。每个数据实例均包含音频路径、对应句子、朗读者和语言标签，音频以44.1kHz采样率存储，确保了高质量的声学特征。数据集规模适中，目前包含约8小时的语音材料，且所有内容均处于公共领域，允许无限制的学术与商业应用。

使用方法

在语音技术研究中，该数据集可直接用于自动语音识别模型的训练与评估。用户可通过HuggingFace数据集库加载，每个样本以字典形式呈现，包含音频数组及元数据。为优化处理效率，建议通过索引优先访问音频列，以避免大规模解码时的性能瓶颈。数据集目前仅提供训练分割，适用于端到端语音识别任务，尤其适合探索多语言或低资源语言场景下的模型泛化能力。

背景与挑战

背景概述

在语音识别技术快速发展的背景下，多语言尤其是低资源语言的语音数据稀缺问题日益凸显。LibriVox Indonesia 1.0数据集由Cahya Wirawan等人基于LibriVox公共领域有声读物构建，专注于印度尼西亚地区的七种语言，包括亚齐语、巴厘语等低资源语种。该数据集旨在通过众包和自主开发的强制对齐软件，将长音频切分为短片段并生成对应文本，为多语言自动语音识别研究提供关键资源，推动语言技术在全球语言多样性保护中的应用。

当前挑战

该数据集致力于解决低资源语言自动语音识别中的训练数据匮乏问题，其挑战在于如何准确对齐多语言音频与文本，尤其是在语音变体丰富的语种中保持标注一致性。构建过程中，从LibriVox原始长音频中提取标准化短片段需克服音频质量不均、说话人差异及语言边界模糊等困难，同时确保七种语言数据的平衡性与代表性，这对技术工具与质量控制流程提出了较高要求。

常用场景

经典使用场景

在语音技术领域，LibriVox Indonesia数据集为自动语音识别研究提供了宝贵的多语言资源。该数据集通过众包方式收集了印度尼西亚地区七种语言的公共领域有声读物音频及对应文本，涵盖了从广泛使用的印尼语到资源相对稀缺的亚齐语、巴厘语等。研究者通常利用这些对齐的音频-文本对，训练和评估跨语言的端到端语音识别模型，特别是在低资源语言场景下，该数据集能够有效支持声学模型与语言模型的联合优化，为多语言语音处理系统的开发奠定数据基础。

衍生相关工作

围绕该数据集已衍生出一系列经典研究工作，尤其在低资源语音识别领域。研究者利用其多语言特性开发了基于Transformer的端到端识别架构，并在跨语言预训练策略上取得进展。相关工作还包括探索语言自适应技术，以提升模型在相似语系间的知识迁移效率。部分研究进一步将该数据集与Common Voice等语料库结合，构建更稳健的多语言基准测试集。这些工作不仅推动了东南亚语言技术的学术发展，也为后续构建更大规模的印度尼西亚语言语音数据库提供了方法论参考。

数据集最近研究