emoji-tts/emoji-tts-22k
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/emoji-tts/emoji-tts-22k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Emoji-TTS 22K训练数据,包含21,940个样本,用于文本到语音和音频分类任务。数据集以WebDataset风格的tar分片形式存储,分为训练集(19,940个样本)、验证集(1,000个样本)和测试集(1,000个样本)。每个样本包含一个WAV文件和一个JSON元数据文件。数据集中还包含一个全局中性提示音频文件。标签(emoji)包括👏、😂、🙏、🔥等,每种标签的样本数量在1,992到1,999之间。
This dataset, named Emoji-TTS 22K Training Data, contains 21,940 samples for text-to-speech and audio-classification tasks. The dataset is stored in WebDataset-style tar shards, divided into training (19,940 samples), validation (1,000 samples), and test (1,000 samples) sets. Each sample includes a WAV file and a JSON metadata file. The dataset also includes a global neutral prompt audio file. Labels (emojis) include 👏, 😂, 🙏, 🔥, etc., with sample counts ranging from 1,992 to 1,999 for each label.
提供机构:
emoji-tts
搜集汇总
数据集介绍

构建方式
Emoji-TTS 22K数据集的语料源选自Bluesky社交平台的公开英文帖子,仅保留包含单一目标表情符号的文本,并经过去重与长度筛选,每类表情符号约选取2000条样本。同时,从不含表情符号的社交文本中采样中性样本,赋予<none>控制标签。针对每种表情条件文本,Gemini导演模型生成简短的语言指导,描述韵律、情感、强调、语速与音色,而中性样本则使用平静的朗读提示。在语音合成前,文本中的表情符号簇与话题标签被移除,随后利用Gemini 2.5 Flash TTS与Pro TTS模型生成语音,并优先选用Pro版本。最终经过去除失败生成、缺失音频、空文本与重复ID后,以固定随机种子42划分为训练集(19,940条)、验证集(1,000条)与测试集(1,000条),元数据汇总及训练方案存放于metadata目录。
特点
该数据集包含21,940条合成语音样本,涵盖10种表情符号标签及中性标签<none>,每一样本均由固定的Kore发音人合成,确保了语音音色的一致性。数据集设计精巧,每条样本由英文文本、表情控制标签及对应WAV音频组成,其控制标签体系轻量而富有表现力,允许对韵律与情感进行解耦控制。由于音频全部为合成生成,避免了真人语音的隐私与多样性问题,同时文本源于社交媒体,包含了非正式语言、俚语与反讽等自然语言现象,为表情驱动的TTS研究提供了丰富且可控的训练材料。此外,数据采用WebDataset格式分片存储,每对tar包中包含音频与JSON元数据,便于高效流式读取。
使用方法
研究人员可直接利用该数据集训练基于表情符号条件的表现力语音合成模型,或将其用于语音到表情的识别任务以及韵律风格解耦控制的研究。数据加载推荐使用WebDataset库,通过tar分片路径高效流式读取音频与元数据。也可基于提供的元数据JSONL文件按需筛选特定表情类别或分片样本。使用前需注意,所有音频均为合成语音,模型在此数据上微调后可能继承合成音色的特征,适合作为研究基线或小规模验证。用户可参考metadata/train_plan_e10_noemoji22k_turbo_optinv4.json文件中的训练配方,结合提供的neutral_prompt_kore_poe.wav提示音频启动实验。
背景与挑战
背景概述
在文本到语音(TTS)合成领域,如何通过轻量级符号信号实现富有表现力且可控的韵律生成,已成为研究的热点与难点。Emoji-TTS 22K数据集由研究团队于近年构建,旨在探索利用表情符号作为情感与风格控制标签的条件式TTS模型。该数据集包含21,940条合成语音样本,涵盖了十个常见表情符号类别及中性标签,其文本来源于公开的Bluesky社交帖子,并通过Gemini模型生成对应的表达指令以驱动语音合成。Emoji-TTS 22K为解耦式韵律控制、语音到表情符号映射及轻量级情感控制信号的研究提供了标准化训练语料,对推动情感化语音合成的发展具有重要参考价值。
当前挑战
该数据集所解决的领域问题在于传统TTS系统缺乏灵活、直观且成本低廉的情感与风格控制机制,而表情符号作为一种普遍使用的符号系统,可作为一种离散控制信号。然而,构建过程中面临多重挑战:源文本需从社交媒体中严格筛选单表情符号且内容多样的帖子,同时需进行去重与长度过滤以平衡各类别样本量;为每一条文本生成自然且不影响原文的韵律指令,依赖Gemini模型的语义理解与生成能力,且需保证指令与表情符号情感的一致性;此外,合成语音需统一使用固定音色,并在去除表情符号与标签后生成自然发音,最终需通过多次筛选剔除失败样本,从而确保数据集质量与实验可复现性。
常用场景
经典使用场景
在情感化语音合成与韵律控制的学术探索中,Emoji-TTS 22K数据集作为一项精心构建的符号化情感控制资源,为研究者提供了弥合文本情感标记与声学表达之间鸿沟的桥梁。该数据集最经典的使用场景集中于emoji条件驱动的情感表达语音合成,研究人员可基于其包含的十种常见emoji标签(如😭、😂、😊)及中性标签,训练模型在保持文本内容不变的前提下,通过引入符号化的情感控制信号,灵活调节合成语音的韵律、情感色彩与强调方式。此外,该数据集亦赋能语音到emoji的自动识别与分类任务,支持从声学特征中反向推断讲话者意图表达的情感符号,从而构建更自然的人机交互系统。其固定的合成语音来源与标准化的元数据结构,亦使其成为评估不同语调控制方法效果的理想基准。
衍生相关工作
Emoji-TTS 22K的构建与开源孕育了一系列具有启发性的后续学术工作。首先,围绕其核心的emoji条件控制机制,研究者发展出了多种韵律解缠方法,例如通过变分自编码器或对抗训练,将文本内容、说话人身份与emoji衍生的情感特征分离至独立的潜在空间。其次,该数据集所依赖的文本来源(Bluesky社交帖子)与Gemini导演模型的交互式生成策略,催生了利用大语言模型进行韵律标记合成的系列研究,探索了将自然语言中的隐式情感意图显化为声学控制指令的自动化流程。此外,基于该数据集的语音到emoji分类任务,已有工作将其扩展为多标签或细粒度情感状态预测模型,推动了社交媒体口语分析与静默语音接口的发展。这些衍生工作共同拓展了符号化情感控制在合成语音、人机交互与计算社会语言学中的理论基础与应用边界。
数据集最近研究
最新研究方向
在情感化语音合成领域,Emoji-TTS 22K数据集的问世标志着从单一文本驱动向多模态符号控制范式的关键跃迁。该数据集通过将十类高频表情符号与中性标签结合,借助Gemini大模型生成富含韵律、情感与语速修饰的语音指令,为解耦式语音风格控制提供了可复现的基准资源。其创新之处在于利用社交平台文本与合成语音的配对,既规避了真人语音采集的隐私与伦理难题,又系统性地建立了表情符号到声学特征的映射关系。这一方向正与当前大语言模型与语音交互深度融合的热潮相呼应,为轻量级情感语音助手、社交媒体有声化等应用铺平了道路,同时也为探究非语言符号在语音中的可编码性提供了实证依据。
以上内容由遇见数据集搜集并总结生成



