AnimeVox
收藏github2025-05-27 更新2025-06-10 收录
下载链接:
https://github.com/taresh18/AnimeVox
下载链接
链接失效反馈官方服务:
资源简介:
AnimeVox是一个英语文本转语音(TTS)数据集,包含来自19个不同动漫角色的11,020个音频片段,每个片段都配有高质量的转录、角色名称和动漫标题,非常适合语音克隆、自定义TTS模型微调和角色语音合成研究。
AnimeVox is an English text-to-speech (TTS) dataset. It contains 11,020 audio clips from 19 distinct anime characters, with each clip paired with high-quality transcriptions, character names, and anime titles. It is well-suited for research on voice cloning, fine-tuning of custom TTS models, and character voice synthesis.
创建时间:
2025-05-27
原始信息汇总
AnimeVox: Character TTS Corpus 数据集概述
数据集简介
AnimeVox 是一个英语文本到语音(TTS)数据集,包含来自19个不同动漫角色的11,020个音频片段。每个片段包含高质量的转录文本、角色名称和动漫标题,适用于语音克隆、自定义TTS模型微调和角色语音合成研究。
数据集统计
- 总样本数: 11,020
- 角色数量: 19
- 动漫系列数量: 15
- 音频格式: 44.1kHz 单声道 WAV
- 存储大小: ~3.5GB
数据集结构
- 实例结构: 每个样本为一个字典,包含以下字段:
audio: 音频对象(44.1kHz)transcription: 角色所说的英语文本character_name: 角色名称anime: 动漫系列标题
- 数据划分: 单一训练集,包含所有11,020个样本
数据集来源与处理
- 来源: 音频片段来自官方英语配音的流行动漫系列
- 处理工具: 使用TTSizer工具自动处理,包括以下关键功能:
- 高级多说话人分割
- 最先进模型集成(如MelBandRoformer、Gemini、CTC-Aligner、WeSpeaker)
- 质量控制(自动异常检测)
使用示例
python from datasets import load_dataset
dataset = load_dataset("taresh18/AnimeVox") train_data = dataset["train"] sample = train_data[0]
许可信息
- 许可证: Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
数据集链接
搜集汇总
数据集介绍

构建方式
AnimeVox数据集的构建依托于开源工具TTSizer的自动化处理流程,该工具整合了多说话人分离、音频文本对齐及说话人验证等先进技术。数据源选自15部热门动漫作品的官方英文配音版本,通过MelBandRoformer和Gemini等模型实现角色语音的精准分割与标注。构建过程中采用CTC-Aligner确保语音文本同步精度,并运用WeSpeaker进行说话人嵌入验证,最终形成包含19个角色11,020条样本的高质量语料库。
特点
该数据集以44.1kHz采样率的单声道WAV格式存储,每条数据包含角色语音、英文转写文本、角色名及所属动漫作品四元组信息。其核心价值在于覆盖19个动漫角色的多样化发声特征,情感表达谱系完整,且通过自动化质量控制机制剔除异常样本,为语音克隆和角色声纹研究提供标准化数据支持。3.5GB的存储规模平衡了数据丰富性与使用便捷性。
使用方法
通过Hugging Face或Kaggle平台获取数据集后,用户可利用datasets库直接加载标准化结构数据。典型应用场景包括调用load_dataset()接口载入训练集,访问样本中的音频路径、转写文本及元数据字段。该数据集特别适配于多说话人TTS模型微调,开发者可通过character_name字段实现角色特异性语音合成,或利用11,020条标注样本构建端到端的声纹克隆系统。
背景与挑战
背景概述
AnimeVox数据集是2023年由开源工具TTSizer团队构建的英文文本转语音(TTS)专用语料库,聚焦动漫角色声音合成这一垂直领域。该数据集收录了15部热门动漫中19个角色的11,020条高质量音频片段,每条数据均包含角色台词文本、角色名称及所属作品信息,填补了动漫领域多角色语音克隆研究的资源空白。其创新性在于采用自动化流水线处理原始媒体素材,为语音合成领域提供了首个涵盖多角色情感表达与声纹特征的标准化基准数据,对推动个性化语音合成技术发展具有显著意义。
当前挑战
该数据集主要面临双重技术挑战:在领域问题层面,动漫角色声音合成需克服跨语言声线迁移的难题,英语配音需保留原角色音色特质,这对声学模型的特征解耦能力提出极高要求;在构建过程层面,多说话人场景下的语音分割与标注存在复杂性,需解决背景音乐干扰、多人对话交织等实际问题。尽管采用先进的声纹识别与语音分离技术,角色语音的纯净度保障与情感标签的细粒度标注仍是持续优化的方向。
常用场景
经典使用场景
在语音合成领域,AnimeVox数据集以其丰富的动漫角色语音样本和高质量的转录文本,成为研究多说话人语音合成的理想选择。该数据集涵盖了19个不同动漫角色的11,020个音频片段,每个片段都标注了角色名称和所属动漫系列,为语音克隆和个性化语音合成提供了丰富的素材。研究人员可以利用这些数据训练出能够模仿特定动漫角色音色的TTS模型,为动漫衍生内容创作提供技术支持。
衍生相关工作
基于AnimeVox数据集,学术界已涌现多项创新研究。有工作探索了基于该数据集的少样本语音克隆方法,显著提升了小数据量下的语音合成质量。另一些研究则专注于跨语言语音转换,尝试将英语动漫角色语音转换为其他语言。数据集还被用于改进说话人验证系统在虚构角色语音上的表现,推动了声纹识别技术的发展。
数据集最近研究
最新研究方向
在语音合成领域,AnimeVox数据集为角色语音克隆和情感化语音生成研究提供了重要资源。该数据集收录了19位动漫角色的多样化语音样本,为探索跨语言语音转换、多说话人建模以及情感驱动的语音合成技术开辟了新途径。近期研究聚焦于利用该数据集训练端到端的神经语音合成模型,以实现高保真度的角色声音复现,并探索在虚拟偶像、互动娱乐等场景中的应用。同时,结合TTSizer工具的多说话人分离和音频对齐技术,研究者们正致力于解决复杂音频环境下的语音特征提取难题,推动个性化语音合成技术的边界。
以上内容由遇见数据集搜集并总结生成



