SpeechCraft

github2024-08-26 更新2024-08-27 收录

下载链接：

https://github.com/thuhcsi/SpeechCraft

下载链接

链接失效反馈

官方服务：

资源简介：

SpeechCraft是一个大规模的表达性双语语音数据集，包含自然语言描述。该数据集包括多种语言的语音数据，如中文和英文，并提供了详细的语音数据信息，如持续时间和片段数量。此外，还提供了语音标注和强调语音数据集的访问方式。

SpeechCraft is a large-scale expressive bilingual speech dataset equipped with natural language descriptions. This dataset contains speech data in multiple languages such as Chinese and English, and provides detailed metadata for the speech data, including duration and the number of segments. Additionally, speech annotations and the access approach for this speech dataset are also provided.

创建时间：

2024-08-21

原始信息汇总

SpeechCraft 数据集概述

数据集下载

语音语料库

语言	语音语料库	时长	片段数
中文	Zhvoice	799.68小时	1,020,427
中文	AISHELL-3	63.70小时	63,011
英文	GigaSpeech-M	739.91小时	670,070
英文	LibriTTS-R	548.88小时	352,265

语音标注

语言	描述下载	指令下载
中文	下载	下载
英文	下载	下载

强调语音数据集访问申请

由于我们不拥有原始音频文件的版权，对于希望将音频文件用于非商业研究和/或教育目的的研究人员和教育工作者，我们可以在特定条件和条款下提供我们再生的版本。要申请带有细粒度关键词强调的 AISHELL-3 和 LibriTTS-R，请填写 EULA 表格 Emphasis-SpeechCraft-EULA.pdf 并将扫描件发送至 jinzeyu23@mails.tsinghua.edu.cn。一旦批准，您将获得下载链接。

语言	语音语料库	时长	片段数
中文	AISHELL-3-stress	50.59小时	63,258
英文	LibriTTS-R-stress	148.78小时	75,654

引用

如果您发现此工作有用，请引用我们的论文：

@inproceedings{jin2024speechcraft, title={SpeechCraft: A Fine-Grained Expressive Speech Dataset with Natural Language Description}, author={Zeyu Jin and Jia Jia and Qixin Wang and Kehan Li and Shuoyi Zhou and Songtao Zhou and Xiaoyu Qin and Zhiyong Wu}, booktitle={ACM Multimedia 2024}, year={2024}, url={https://openreview.net/forum?id=rjAY1DGUWC} }

搜集汇总

数据集介绍

构建方式

SpeechCraft数据集的构建基于多源语音数据，整合了来自不同语言和语料库的语音片段，包括Zhvoice、AISHELL-3、GigaSpeech-M和LibriTTS-R。这些数据经过精细处理，涵盖了多种语音特征，如音高、能量、语速、年龄、性别、情感语调、重读、话题类别及转录文本。通过结构化的元数据标注，数据集不仅提供了丰富的语音信息，还支持自然语言描述的生成，从而为语音合成和情感分析等研究提供了坚实的基础。

特点

SpeechCraft数据集的显著特点在于其细粒度的表达性和自然语言描述的丰富性。该数据集不仅包含了多种语言和语音特征的标注，还通过情感分析技术生成了详细的自然语言描述，使得语音数据的表达更加生动和具体。此外，数据集的结构化元数据支持进一步的增强和扩展，为研究者提供了灵活的使用空间。

使用方法

使用SpeechCraft数据集时，研究者可以通过下载相应的语音语料和标注文件，利用提供的元数据进行情感分析、语音合成等研究。数据集的标注文件详细描述了每个语音片段的特征，如音高、音量、年龄、性别、情感等，便于研究者进行深入分析。此外，数据集还提供了自然语言描述的生成模板，帮助研究者更好地理解和应用语音数据。

背景与挑战

背景概述

SpeechCraft数据集是由Zeyu Jin等研究人员在2024年ACM多媒体会议上发布的，旨在解决语音表达的细粒度分析问题。该数据集通过自然语言描述，提供了丰富的语音特征标注，包括音高、能量、速度、年龄、性别、情感语调、重读、主题类别及转录文本。其核心研究问题在于如何通过精细化的语音数据，提升语音合成和分析的准确性与表现力。SpeechCraft的发布，标志着语音处理领域在细粒度表达和自然语言描述方面的重要进展，为后续研究提供了坚实的基础。

当前挑战

SpeechCraft数据集在构建过程中面临多项挑战。首先，如何从大量语音数据中提取并标注细粒度的语音特征，确保数据的准确性和一致性，是一个技术难题。其次，数据集的版权问题限制了原始音频文件的使用，研究人员需通过特定条件获取再生成版本，这增加了数据获取的复杂性。此外，如何在大规模数据构建中保持与人类感知的一致性，以及如何有效利用自然语言描述来增强语音分析和合成的效果，也是该数据集面临的重要挑战。

常用场景

经典使用场景

SpeechCraft数据集在语音合成与情感分析领域展现了其经典应用。通过提供精细化的语音特征标注，如音高、音量、语速、情感等，该数据集支持研究者开发能够生成更具表现力和情感丰富度的语音合成系统。此外，其自然语言描述的特性使得模型能够更好地理解和模拟人类语音的细微差别，从而在情感识别和语音生成任务中取得显著进展。

实际应用

SpeechCraft数据集在实际应用中展现了广泛的前景。在智能客服、虚拟助手和教育培训等领域，该数据集支持开发出能够根据用户情感状态调整语音输出的系统，从而提升用户体验。此外，在影视配音和游戏开发中，精细化的语音合成技术能够为角色赋予更加生动的情感表达，增强作品的感染力。这些应用不仅提升了技术实用性，也为相关行业带来了创新机会。

衍生相关工作

SpeechCraft数据集的发布激发了大量相关研究工作。研究者们基于该数据集开发了多种情感识别和语音合成模型，推动了语音处理技术的发展。例如，有研究利用数据集中的情感标注进行情感分类，提升了情感识别的准确性；还有研究通过数据集中的自然语言描述，改进了语音合成的情感表达能力。这些工作不仅丰富了语音处理领域的理论研究，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集