SpeechBrown

Hugging Face2025-01-10 更新2025-01-11 收录

下载链接：

https://huggingface.co/datasets/llm-lab/SpeechBrown

下载链接

链接失效反馈

官方服务：

资源简介：

Speech Brown是一个综合的、合成的、多样化的语音-文本配对数据集，包含15个类别，涵盖了从小说到宗教的广泛主题。该数据集包含超过55,000个句子级别的样本。为了训练CLASP模型，我们基于Brown Corpus创建了这个数据集，并使用NVIDIA Tacotron 2文本到语音模型生成合成语音。数据集总大小约为30GB，包含55,173对语音和文本样本，平均每个样本有19个标记，最大标记数为48，平均每个样本有96.72个字符。数据集分为10个部分，每个部分可以独立使用。

创建时间：

2025-01-09

搜集汇总

数据集介绍

构建方式

SpeechBrown数据集是基于Brown Corpus构建的，涵盖了15个不同类别的文本，从小说到宗教等多个领域。该数据集包含超过55,000个句子级别的样本，语音数据通过NVIDIA Tacotron 2文本到语音模型生成，确保了语音与文本的精确配对。数据集的构建过程旨在为多模态信息检索任务提供高质量的语音-文本对。

特点

SpeechBrown数据集的特点在于其多样性和广泛性，涵盖了15个不同的文本类别，包括冒险、文学、政府、幽默等。每个样本平均包含19个词，最大词数为48，平均字符数为96.72。数据集的总大小约为30GB，包含55,173对语音和文本样本，且每个样本都有唯一的标识符和对应的元数据信息，便于用户进行高效的数据管理和分析。

使用方法

使用SpeechBrown数据集时，用户可以选择手动下载或通过编程方式获取数据。手动下载时，用户需访问HuggingFace数据集仓库，下载所有`dataset_partX.zip`文件和`global_metadata.json`文件。编程下载则可通过`huggingface_hub`库实现，下载后解压缩并加载元数据文件。数据集被划分为10个独立部分，用户可根据任务需求选择使用特定部分或全部数据。

背景与挑战

背景概述

SpeechBrown数据集是一个综合性的合成语音-文本配对数据集，涵盖了从小说到宗教等15个类别的广泛主题。该数据集由超过55,000个句子级别的样本组成，旨在为文本到语音（TTS）任务提供多样化的训练数据。该数据集基于著名的Brown Corpus构建，并由NVIDIA Tacotron 2模型生成合成语音。SpeechBrown的创建时间为2024年，主要研究人员包括Mohammad Mahdi Abootorabi和Ehsaneddin Asgari，他们来自语言建模实验室。该数据集的核心研究问题在于如何通过对比学习实现多语言多模态信息检索，其研究成果对语音合成和自然语言处理领域具有重要影响。

当前挑战

SpeechBrown数据集在解决文本到语音任务时面临多重挑战。首先，生成高质量的合成语音需要克服语音自然度和多样性的问题，尤其是在多类别文本的背景下。其次，数据集的构建过程中，如何确保语音与文本的精确对齐是一个技术难点，尤其是在大规模数据处理时。此外，数据集的多样性和覆盖范围虽然广泛，但在某些特定领域的文本类型上可能存在不足，这可能会影响模型在这些领域的表现。最后，数据集的存储和分发也带来了技术挑战，尤其是考虑到其30GB的总大小和复杂的元数据结构。

常用场景

经典使用场景

SpeechBrown数据集在文本到语音（TTS）领域具有广泛的应用，尤其是在训练和评估多语言多模态信息检索模型时表现出色。该数据集通过提供超过55,000对句子级别的语音-文本样本，涵盖了15个不同主题类别，能够有效支持模型在多样化的语境下进行训练和测试。其丰富的类别分布和高质量的合成语音数据，使得SpeechBrown成为研究者在探索语音生成、语音识别以及跨模态信息检索等任务时的理想选择。

解决学术问题

SpeechBrown数据集解决了文本到语音转换领域中的多个关键学术问题。首先，它通过提供多样化的文本和语音对，帮助研究者克服了传统数据集中样本单一、语境局限的问题。其次，该数据集支持多语言多模态信息检索模型的训练，推动了跨模态信息检索技术的发展。此外，SpeechBrown还为语音生成模型的性能评估提供了标准化的基准，促进了该领域的量化研究和模型优化。

衍生相关工作

SpeechBrown数据集的发布催生了一系列相关研究工作，尤其是在多模态信息检索和语音生成领域。基于该数据集，研究者提出了CLASP模型，该模型通过对比学习实现了语言和语音的高效对齐，显著提升了跨模态信息检索的性能。此外，SpeechBrown还被用于改进Tacotron 2等语音生成模型，推动了语音合成技术的进一步发展。这些工作不仅验证了SpeechBrown数据集的实用价值，也为后续研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集