ylacombe/cml-tts

Name: ylacombe/cml-tts
Creator: ylacombe
Published: 2023-11-24 14:48:29
License: 暂无描述

Hugging Face2023-11-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ylacombe/cml-tts

下载链接

链接失效反馈

官方服务：

资源简介：

CML-TTS是一个多语言的文本到语音（TTS）数据集，由巴西联邦大学的人工智能卓越中心（CEIA）开发。数据集包含来自Project Gutenberg的公共领域书籍的录音，由LibriVox项目的志愿者朗读。数据集支持荷兰语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语，采样率为24kHz。数据集的主要用途是训练文本到语音模型。

CML-TTS is a multilingual Text-to-Speech (TTS) dataset developed at the Center of Excellence in Artificial Intelligence (CEIA) of the Federal University of Goias (UFG). The dataset includes audio recordings from public domain books read by volunteers from the LibriVox project in multiple languages such as Dutch, German, French, Italian, Polish, Portuguese, and Spanish. The dataset supports tasks like text-to-speech and text-to-audio. It is structured with various features like audio, text, speaker_id, transcript_wav2vec, wav_filesize, levenshtein, duration, and num_words. The dataset is available in different splits for training, development, and testing. The README also provides instructions on how to use the dataset with the HuggingFace `datasets` library, including examples for both local and streaming modes.

提供机构：

ylacombe

原始信息汇总

数据集卡片 CML-TTS

数据集描述

数据集摘要

CML-TTS 是一个多语言文本到语音（TTS）数据集，由联邦大学戈亚斯（UFG）的人工智能卓越中心（CEIA）开发。该数据集包含从古腾堡计划（Project Gutenberg）的公共领域书籍中提取的音频书籍，由 LibriVox 项目的志愿者朗读。数据集包括荷兰语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语的录音，所有录音的采样率为 24kHz。

支持的任务

text-to-speech, text-to-audio: 该数据集可用于训练文本到语音（TTS）模型。

语言

数据集包括荷兰语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语的录音，所有录音的采样率为 24kHz。

数据集结构

数据实例

一个典型的数据点包括音频文件的路径、转录文本、说话者信息和其他相关信息。

json { "audio": {"path": "6892_8912_000729.wav", "array": [...], "sampling_rate": 24000}, "wav_filesize": 601964, "text": "Proszę pana, tu pano... zdziwiony", "transcript_wav2vec": "proszę pana tu panow... zdziwiony", "levenshtein": 0.96045197740113, "duration": 13.648979591836737, "num_words": 29, "speaker_id": 6892 }

数据字段

audio: 包含音频文件名、解码后的音频数组和采样率的字典。
text: 音频文件的转录文本。
speaker_id: 说话者的唯一标识符。
transcript_wav2vec: 使用 wav2vec 模型的音频文件转录文本。
wav_filesize: 音频波形文件的大小。
levenshtein: wav2vec 转录文本与原始转录文本之间的 Levenshtein 距离。
duration: 音频的持续时间（秒）。
num_words: 转录文本中的单词数量。

数据分割

语言	训练集样本数	开发集样本数	测试集样本数
荷兰语	309785	4834	4570
法语	107598	3739	3763
德语	608296	5314	5466
意大利语	50345	1765	1835
波兰语	18719	853	814
葡萄牙语	34265	1134	1297
西班牙语	168524	3148	3080

数据统计

语言	训练集时长 (小时)	测试集时长 (小时)	开发集时长 (小时)	训练集说话者数	测试集说话者数	开发集说话者数
荷兰语	482.82	2.46	2.24	8	3	2
法语	260.08	2.48	3.31	25	8	10
德语	1128.96	3.75	4.31	78	13	13
意大利语	73.78	1.47	0.40	23	5	4
波兰语	30.61	0.70	0.56	4	2	2
葡萄牙语	23.14	0.28	0.68	20	5	6
西班牙语	279.15	2.77	3.40	35	10	11
总计	3176.13	28.11	29.19	424	94	95

数据集创建

数据集来源

数据集的音频书籍来自古腾堡计划（Project Gutenberg）的公共领域书籍，由 LibriVox 项目的志愿者朗读。

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话者的身份。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集许可信息

公共领域，Creative Commons Attribution 4.0 国际公共许可证（CC-BY-4.0）

引用信息

@misc{oliveira2023cmltts, title={CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource Languages}, author={Frederico S. Oliveira and Edresson Casanova and Arnaldo Cândido Júnior and Anderson S. Soares and Arlindo R. Galvão Filho}, year={2023}, eprint={2306.10097}, archivePrefix={arXiv}, primaryClass={eess.AS} }

搜集汇总

数据集介绍

构建方式

CML-TTS数据集的构建基于LibriVox项目中的公开领域书籍录音，这些录音由志愿者朗读，涵盖了荷兰语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语。数据集的音频采样率为24kHz，并经过重新结构化以方便流式传输。每个语言配置包含训练、开发和测试三个数据集，分别用于模型的训练、验证和测试。

使用方法

使用CML-TTS数据集时，可以通过HuggingFace的datasets库轻松加载和预处理数据。用户可以选择特定的语言配置（如德语）并指定数据集的分割（如训练集）。此外，数据集支持流式加载，允许用户在不需要下载整个数据集的情况下逐个加载样本。这为大规模数据处理提供了极大的便利。

背景与挑战

背景概述

CML-TTS（CML-Multi-Lingual-TTS）是由巴西联邦大学Goias的人工智能卓越中心（CEIA）开发的多语言文本到语音（TTS）数据集。该数据集包含了从Project Gutenberg的公共领域书籍中提取的音频书籍，由LibriVox项目的志愿者朗读。CML-TTS涵盖了荷兰语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语，所有录音的采样率为24kHz。该数据集的创建旨在支持低资源语言的语音合成研究，并已对原始的OpenSLR数据进行了重组，以便于流式传输。CML-TTS的发布对多语言语音合成领域产生了显著影响，为研究人员提供了一个丰富的资源来训练和评估TTS模型。

当前挑战

CML-TTS数据集在构建过程中面临了多重挑战。首先，多语言数据的收集和标准化是一个复杂的过程，涉及不同语言的语音特征和发音规则的差异。其次，数据集的注释和质量控制需要高度的专业知识，以确保转录文本的准确性和一致性。此外，处理大规模音频数据的高计算资源需求也是一个显著的挑战。在应用层面，如何有效地利用该数据集来训练和优化TTS模型，特别是在低资源语言上的表现，仍然是一个开放的研究问题。最后，数据集的隐私和伦理问题，如匿名化处理和避免身份识别，也是需要谨慎考虑的方面。

常用场景

经典使用场景

在语音合成领域，CML-TTS数据集的经典使用场景主要集中在多语言文本到语音（TTS）模型的训练与评估。该数据集涵盖了荷兰语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语等多种语言，为研究人员提供了丰富的多语言语音数据资源。通过利用这些数据，研究者可以开发和优化跨语言的TTS系统，提升其在不同语言环境下的表现。

解决学术问题

CML-TTS数据集解决了多语言语音合成中的关键学术问题，特别是在低资源语言的TTS模型训练方面。传统的TTS模型通常依赖于大量标注数据，而低资源语言往往缺乏足够的语音数据。CML-TTS通过提供多语言的语音数据，帮助研究者探索如何在数据稀缺的情况下有效训练TTS模型，推动了低资源语言语音合成技术的发展。

实际应用

在实际应用中，CML-TTS数据集为多语言语音合成系统提供了重要的数据支持。例如，在多语言智能助手、语音翻译服务和跨文化教育工具等领域，高质量的多语言TTS系统能够显著提升用户体验。此外，该数据集还可用于开发针对特定语言或方言的语音合成模型，满足不同地区和用户群体的个性化需求。

数据集最近研究