xacer/librivox-tracks
收藏Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/xacer/librivox-tracks
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了2023年9月26日之前上传到LibriVox的所有音频文件。数据集从https://huggingface.co/datasets/pykeio/librivox-tracks fork而来,并使用了archive.org的元数据API来添加duration列。数据集支持多种语言,包括但不限于英语、中文、法语、德语等,适用于文本到语音、自动语音识别和特征提取等任务。
A dataset of all audio files uploaded to LibriVox before 26th September 2023, covering multiple languages with detailed metadata for each audio file, including book information, language, text, section, URL, reader information, and audio duration. The dataset is primarily used for training and is suitable for text-to-speech, automatic speech recognition, and feature extraction tasks.
提供机构:
xacer
原始信息汇总
LibriVox Tracks 数据集概述
数据集基本信息
- 许可证: cc-by-4.0
- 名称: LibriVox Tracks
- 大小类别: 100K < n < 1M
- 语言:
- ace, afr, grc, ara, ban, bel, ben, ceb, bug, bul, yue, cat, zho, hrv, ces, dan, nld, eng, epo, fao, fin, fra, glg, deu, ell, heb, hin, hun, ind, gle, ita, jpn, jav, pam, kor, kur, lat, lav, lit, nds, ltz, mkd, zlm, mlt, mri, mar, enm, min, nor, nno, oci, ang, kaw, non, osn, tpw, ori, fas, pol, por, ron, rus, gla, srp, slk, slv, spa, sun, swe, tgl, tam, tur, ukr, urd, vol, wln, cym, fry, yid
数据集结构
- 特征:
- book:
- id: string
- title: string
- language: string
- text: string
- section:
- id: string
- num: string
- title: string
- url: string
- reader:
- reader_id: string
- display_name: string
- duration: float64
- book:
数据集分割
- train:
- num_bytes: 114422713
- num_examples: 410709
数据集大小
- download_size: 22009501
- dataset_size: 114422713
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
任务类别
- text-to-speech
- automatic-speech-recognition
- feature-extraction
搜集汇总
数据集介绍

构建方式
在语音技术领域,构建高质量的多语言音频数据集对于推动自动语音识别与文本转语音研究至关重要。LibriVox Tracks数据集通过系统化采集LibriVox平台在2023年9月26日前上传的全部公开音频资源而构建,其核心方法依赖于对archive.org元数据接口的调用,从而为每条音频记录精确标注了时长信息。这一过程不仅整合了原始音频文件及其对应文本,还通过书籍、章节及朗读者等多维度标识符建立了结构化关联,确保了数据的一致性与可追溯性。
特点
该数据集以其卓越的多语言覆盖与丰富的元数据层次而著称,囊括了从阿肯语到意第绪语等近百种语言变体,为跨语言语音研究提供了宝贵资源。每条样本均包含语言标签、文本转录、音频链接、时长及书籍与读者详情等十余项特征,形成了细粒度的描述体系。其规模达到数十万条样本,覆盖文学、历史等多种体裁,且遵循知识共享许可协议,兼具学术可用性与法律合规性。
使用方法
研究者可借助该数据集开展多任务语音技术实验,例如通过文本与音频配对数据训练端到端的自动语音识别模型,或利用多说话人音频优化文本转语音系统的自然度。在实际应用中,用户需依据语言、时长或书籍类别等字段进行数据筛选,并可通过音频链接直接获取原始文件以进行特征提取。该数据集已预分割为训练集,便于直接集成至主流机器学习框架进行批量加载与预处理。
背景与挑战
背景概述
在语音技术蓬勃发展的时代,多语言语音数据资源的构建成为推动自动语音识别与文本转语音技术前进的关键基石。LibriVox Tracks数据集由xacer于2023年基于LibriVox开源音频库创建,其核心研究问题在于整合跨越80余种语言的庞大公共领域有声读物录音,为语音模型训练提供丰富、多样且可自由访问的语料。该数据集不仅涵盖了从英语、中文到诸多低资源语言的广泛频谱,还通过结构化元数据标注,显著促进了跨语言语音处理、口音分析以及语音合成自然度提升等领域的研究,对构建更具包容性和泛化能力的语音人工智能系统产生了深远影响。
当前挑战
该数据集致力于应对多语言自动语音识别与文本转语音领域的两大核心挑战:一是如何有效处理与建模极其丰富的语言多样性及伴随的发音、口音变异,以提升模型在低资源语言和方言上的性能;二是在数据构建过程中,面临来自原始音频源的质量不均、背景噪音干扰、朗读者发音风格差异以及跨语言元数据对齐与标准化等复杂工程难题,这些因素均对数据集的纯净度与可用性构成了考验。
常用场景
经典使用场景
在语音技术领域,LibriVox Tracks数据集以其多语言、大规模的特性,成为训练和评估文本到语音(TTS)与自动语音识别(ASR)系统的经典资源。该数据集涵盖了从古典语言到现代方言的广泛语种,为研究者提供了丰富的语音-文本对齐样本,尤其适用于跨语言语音模型的开发与优化。通过其结构化的元数据,如书籍章节和朗读者信息,学者能够深入探索语音风格迁移和说话人自适应等前沿课题。
解决学术问题
该数据集有效解决了语音处理研究中数据稀缺与多样性不足的瓶颈问题。其覆盖的80余种语言,包括低资源语种如阿塞拜疆语或古典希腊语,为多语言语音模型训练提供了关键支持,促进了语言技术在全球范围内的公平发展。同时,精确的时长标注和朗读者元数据助力于语音合成自然度、识别准确度的量化评估,推动了端到端语音系统在鲁棒性和泛化能力上的学术突破。
衍生相关工作
基于该数据集,学术界衍生了一系列经典工作,例如多语言语音预训练模型如XLSR的构建,这些模型利用其跨语言数据实现了零样本语音识别。同时,在语音合成方向,研究如StyleTTS等模型借助其朗读者多样性探索了个性化语音克隆技术。此外,数据集还被用于低资源语言语音技术的基准测试,推动了Meta的Massively Multilingual Speech等项目的发展,显著拓展了语音技术的边界。
以上内容由遇见数据集搜集并总结生成



