reference_ai_voices_with_timbre_annotations
收藏Hugging Face2025-12-01 更新2025-12-02 收录
下载链接:
https://huggingface.co/datasets/laion/reference_ai_voices_with_timbre_annotations
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含约32000个人工智能生成的语音样本的数据集,涵盖了广泛的情绪光谱和多种声音色调与角色类型。语音样本包括从青少年到老年人的声音,男性化、女性化和双性化的表现,以及从暗到亮、从软到硬、从温暖到凉爽的音色。数据集的核心目标是提供丰富的训练材料用于音色建模和可控文本到语音转换。
提供机构:
LAION eV
创建时间:
2025-12-01
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: reference_voice_dataset__mp3
- 托管平台: Hugging Face
- 许可证: Apache-2.0
- 数据规模: 约 32,000 个AI生成的语音样本
数据集内容与结构
- 核心内容: 包含约32,000个短MP3音频片段,每个片段对应一个独立的语音样本。
- 文件格式: 所有音频文件均为MP3格式。
- 辅助文件: 每个MP3文件都配有一个同名的JSON格式的旁注文件,该文件包含一个
timbre_annotation(音色标注)对象。
数据特征与标注
- 语音多样性: 旨在覆盖广泛的情感频谱、多样的音色和角色类型。
- 年龄范围:从青年到老年说话者。
- 性别表达:男性化、女性化及中性化呈现。
- 音色特征:涵盖暗亮、柔和刺耳、温暖冷酷等维度。
- 角色类型:包括中性日常语音和高度风格化的角色语音(如精灵、邪恶霸主、龙王、公主等)。
- 标注信息 (
timbre_annotation):trait_tags: 包含对稳定声音特征的离散标签,如感知年龄、性别表达、音调水平、音色亮度、柔和度、温暖度、清晰度、鼻音、气息音、发声类型、共鸣位置、嗓音健康状况、基线紧张度、发音清晰度、基线语速、口音区域、语言语域等。context_tags: 包含三个角色标签列表(蛇形命名法),分别对应奇幻、科幻和当代背景下的角色。trait_caption: 包含2-4句话,描述稳定的声音身份特征(如年龄印象、性别表达、音色、口音、语速、发音等),不涉及具体角色。casting_caption: 包含2-4句话,描述该声音适合在奇幻、科幻和当代设定中扮演哪些类型的角色。listening_pleasantness: 一个5级标签,从very_unpleasant到very_pleasant,描述声音的聆听愉悦度。voice_commonness: 一个3级标签,从common_voice到very_unusual_voice,描述声音在日常生活中的典型性或独特性。
- 标注生成: 所有标注均由一个使用结构化输出大语言模型和Pydantic模式的自动化脚本生成。
数据集目的与用途
- 核心目标: 为音色建模和可控文本到语音(TTS)提供丰富的训练材料。
使用方法
-
下载与提取: bash git lfs install git clone https://huggingface.co/datasets/laion/reference_voice_dataset__mp3 cd reference_voice_dataset__mp3 tar -xf reference_voice_dataset__mp3.tar
-
数据对应关系: 每个MP3文件
<basename>.mp3都有一个对应的<basename>.json文件。 -
后续处理: 可将JSON解析到自定义的数据结构中以便使用。
搜集汇总
数据集介绍

构建方式
在语音合成技术快速发展的背景下,reference_voice_dataset__mp3数据集通过神经TTS与语音转换工具生成了约32,000个AI语音样本。这些样本覆盖了从年轻到年长、从男性化到女性化乃至中性表达的广泛音色与情感谱系,并特别设计了包括奇幻、科幻及现代场景在内的多样化角色类型。每个语音片段均配有通过结构化输出大语言模型自动生成的JSON标注文件,其中详细记录了音色特征、角色标签及听觉感受等多维度属性,为可控语音合成研究提供了系统化的数据基础。
特点
该数据集的核心特点在于其丰富的音色标注体系与广泛的情感角色覆盖。音色标注不仅包含年龄、性别表达、音高、亮度等稳定声学特征,还细致描述了呼吸感、鼻音、发声类型等细微特质。同时,通过奇幻、科幻与现代三大类别的角色标签,数据集能够支持从日常对话到高度风格化角色语音的生成需求。自动生成的描述性文本与五级听觉愉悦度、三级声音常见度标签进一步增强了数据的可解释性与实用性,为音色建模与情感可控合成提供了多维度的研究素材。
使用方法
使用该数据集时,研究者需首先通过Git LFS下载并解压MP3压缩包,随后即可访问每个语音文件对应的JSON标注文件。标注文件中的timbre_annotation对象可直接解析为程序数据结构,便于后续的特征提取与模型训练。该数据集适用于音色建模、可控语音合成及跨角色语音转换等任务,用户可依据标注中的音色特征与角色标签构建条件生成模型,或利用听觉愉悦度等指标进行语音质量评估,从而推动个性化与情感化语音合成技术的发展。
背景与挑战
背景概述
在语音合成与音色建模领域,高质量且标注精细的语音数据是推动可控性文本到语音技术发展的基石。reference_ai_voices_with_timbre_annotations数据集由LAION等机构的研究团队构建,旨在通过约32,000条AI生成的语音样本,覆盖广泛的情感频谱、多样的音色特质与角色类型,为音色建模与可控TTS提供丰富的训练材料。该数据集的核心研究问题聚焦于如何系统性地表征与合成具有复杂、稳定音色特征的语音,从而支持生成从日常中性声音到高度风格化的奇幻角色声音,对推动个性化、情感化语音合成技术的发展具有显著影响力。
当前挑战
该数据集致力于解决可控文本到语音合成中音色与角色属性精细建模的挑战,具体包括如何准确、一致地标注多维音色特征(如年龄感知、性别表达、音色亮度、温暖度等),以及如何将这些抽象特征与具体角色设定(如奇幻、科幻、当代背景)有效关联。在构建过程中,挑战主要源于自动化标注的可靠性,即依赖结构化输出大语言模型生成的音色注释能否保持高精度与一致性,同时确保涵盖从常见到极为罕见声音的广泛多样性,避免标注偏差,并处理大规模AI生成语音在音质与风格上的内在波动性。
常用场景
经典使用场景
在语音合成与音色建模领域,该数据集为研究者提供了丰富的训练素材,尤其适用于可控文本到语音系统的开发。通过涵盖从年轻到老年、不同性别表达及多样音色特征的语音样本,它支持模型学习如何生成具有特定情感色彩和角色特征的语音,例如在生成童话角色或科幻人物语音时,系统能依据音色注释精准调整输出,实现高度定制化的语音合成。
解决学术问题
该数据集主要解决了语音合成中音色控制与多样性生成的学术难题。传统语音合成模型往往受限于有限音色范围,难以模拟广泛的人类语音特征。通过提供自动化生成的音色注释,包括年龄、性别、音色亮度等稳定特征标签,该数据集使研究者能够训练模型更精细地建模音色变化,推动可控TTS技术在情感表达和角色适配方面的进展,为个性化语音合成奠定数据基础。
衍生相关工作
基于该数据集,已衍生出多项经典研究工作,主要集中在音色迁移和可控语音生成方向。例如,研究者利用其音色注释开发了新型神经网络架构,能够实现跨角色音色的高效转换;同时,该数据集也促进了多模态语音合成模型的创新,结合情感和角色标签,推动了语音合成在娱乐和教育等领域的应用扩展,为后续研究提供了重要基准。
以上内容由遇见数据集搜集并总结生成



