AnimeVox

github2025-05-27 更新2025-06-10 收录

下载链接：

https://github.com/taresh18/AnimeVox

下载链接

链接失效反馈

官方服务：

资源简介：

AnimeVox是一个英语文本转语音(TTS)数据集，包含来自19个不同动漫角色的11,020个音频片段，每个片段都配有高质量的转录、角色名称和动漫标题，非常适合语音克隆、自定义TTS模型微调和角色语音合成研究。

AnimeVox is an English text-to-speech (TTS) dataset. It contains 11,020 audio clips from 19 distinct anime characters, with each clip paired with high-quality transcriptions, character names, and anime titles. It is well-suited for research on voice cloning, fine-tuning of custom TTS models, and character voice synthesis.

创建时间：

2025-05-27

原始信息汇总

AnimeVox: Character TTS Corpus 数据集概述

数据集简介

AnimeVox 是一个英语文本到语音（TTS）数据集，包含来自19个不同动漫角色的11,020个音频片段。每个片段包含高质量的转录文本、角色名称和动漫标题，适用于语音克隆、自定义TTS模型微调和角色语音合成研究。

数据集统计

总样本数: 11,020
角色数量: 19
动漫系列数量: 15
音频格式: 44.1kHz 单声道 WAV
存储大小: ~3.5GB

数据集结构

实例结构: 每个样本为一个字典，包含以下字段：
- audio: 音频对象（44.1kHz）
- transcription: 角色所说的英语文本
- character_name: 角色名称
- anime: 动漫系列标题
数据划分: 单一训练集，包含所有11,020个样本

数据集来源与处理

来源: 音频片段来自官方英语配音的流行动漫系列
处理工具: 使用TTSizer工具自动处理，包括以下关键功能：
- 高级多说话人分割
- 最先进模型集成（如MelBandRoformer、Gemini、CTC-Aligner、WeSpeaker）
- 质量控制（自动异常检测）

使用示例

python from datasets import load_dataset

dataset = load_dataset("taresh18/AnimeVox") train_data = dataset["train"] sample = train_data[0]

许可信息

许可证: Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

数据集链接

搜集汇总

数据集介绍

构建方式

AnimeVox数据集的构建依托于开源工具TTSizer的自动化处理流程，该工具整合了多说话人分离、音频文本对齐及说话人验证等先进技术。数据源选自15部热门动漫作品的官方英文配音版本，通过MelBandRoformer和Gemini等模型实现角色语音的精准分割与标注。构建过程中采用CTC-Aligner确保语音文本同步精度，并运用WeSpeaker进行说话人嵌入验证，最终形成包含19个角色11,020条样本的高质量语料库。

特点

该数据集以44.1kHz采样率的单声道WAV格式存储，每条数据包含角色语音、英文转写文本、角色名及所属动漫作品四元组信息。其核心价值在于覆盖19个动漫角色的多样化发声特征，情感表达谱系完整，且通过自动化质量控制机制剔除异常样本，为语音克隆和角色声纹研究提供标准化数据支持。3.5GB的存储规模平衡了数据丰富性与使用便捷性。

使用方法

通过Hugging Face或Kaggle平台获取数据集后，用户可利用datasets库直接加载标准化结构数据。典型应用场景包括调用load_dataset()接口载入训练集，访问样本中的音频路径、转写文本及元数据字段。该数据集特别适配于多说话人TTS模型微调，开发者可通过character_name字段实现角色特异性语音合成，或利用11,020条标注样本构建端到端的声纹克隆系统。

背景与挑战

背景概述

AnimeVox数据集是2023年由开源工具TTSizer团队构建的英文文本转语音（TTS）专用语料库，聚焦动漫角色声音合成这一垂直领域。该数据集收录了15部热门动漫中19个角色的11,020条高质量音频片段，每条数据均包含角色台词文本、角色名称及所属作品信息，填补了动漫领域多角色语音克隆研究的资源空白。其创新性在于采用自动化流水线处理原始媒体素材，为语音合成领域提供了首个涵盖多角色情感表达与声纹特征的标准化基准数据，对推动个性化语音合成技术发展具有显著意义。

当前挑战

该数据集主要面临双重技术挑战：在领域问题层面，动漫角色声音合成需克服跨语言声线迁移的难题，英语配音需保留原角色音色特质，这对声学模型的特征解耦能力提出极高要求；在构建过程层面，多说话人场景下的语音分割与标注存在复杂性，需解决背景音乐干扰、多人对话交织等实际问题。尽管采用先进的声纹识别与语音分离技术，角色语音的纯净度保障与情感标签的细粒度标注仍是持续优化的方向。

常用场景

经典使用场景

在语音合成领域，AnimeVox数据集以其丰富的动漫角色语音样本和高质量的转录文本，成为研究多说话人语音合成的理想选择。该数据集涵盖了19个不同动漫角色的11,020个音频片段，每个片段都标注了角色名称和所属动漫系列，为语音克隆和个性化语音合成提供了丰富的素材。研究人员可以利用这些数据训练出能够模仿特定动漫角色音色的TTS模型，为动漫衍生内容创作提供技术支持。

衍生相关工作

基于AnimeVox数据集，学术界已涌现多项创新研究。有工作探索了基于该数据集的少样本语音克隆方法，显著提升了小数据量下的语音合成质量。另一些研究则专注于跨语言语音转换，尝试将英语动漫角色语音转换为其他语言。数据集还被用于改进说话人验证系统在虚构角色语音上的表现，推动了声纹识别技术的发展。

数据集最近研究