Ani Voice Rebuild Dataset

github2026-03-19 更新2026-03-20 收录

下载链接：

https://github.com/engineerx87/ani-voice-rebuild

下载链接

链接失效反馈

官方服务：

资源简介：

社区努力构建一个干净的语音数据集，用于重现Ani早期语音特征的开源神经TTS模型实验。数据集目标为60分钟以上的干净语音，支持.wav、.mp3、.m4a、.mp4格式的音频剪辑提交。

A community-driven effort is underway to build a clean speech dataset for experiments with open-source neural TTS models that replicate the early speech characteristics of Ani. The dataset targets over 60 minutes of clean speech in total, and accepts submissions of audio clips in .wav, .mp3, .m4a, and .mp4 formats.

创建时间：

2026-03-16

原始信息汇总

Ani Voice Rebuild 数据集概述

数据集基本信息

数据集名称: Ani Voice Rebuild
项目目标: 利用开源神经TTS模型，重建Grok AI伴侣体验中早期使用的Ani声音特征。
项目性质: 社区驱动的开放实验与协作项目，旨在进行声音重建的探索，而非复制专有系统。
许可证: 代码采用MIT许可证。数据集许可将取决于贡献者的授权。
项目状态: 活跃。

数据集目标与规模

目标数据集大小: 60分钟以上经过筛选的干净语音。
当前进度: 已收集片段数为0，总音频时长为0分钟。
目标设定依据: 现代神经TTS模型在30-60分钟的干净语音数据集上即可开始产生令人信服的声音特征，进行有意义的实验。

数据内容与来源

语音对象: 重建目标为早期Ani的声音特征。
数据来源: 完全依赖社区贡献的音频片段。
提交方式: 贡献者需将音频片段上传至指定的共享文件夹（https://drive.google.com/drive/folders/13MJ_YCqtM1MefC1MPuKlo6QJZRXsCOZI?usp=sharing）。

数据格式与要求

原始提交格式

接受格式：.wav, .mp3, .m4a, .mp4。
片段要求：
- 理想情况下包含单一说话人。
- 背景噪音最小。
- 长度在3-15秒之间。
- 原始录音亦可接受，预处理流水线会自动进行分割。

处理后训练数据格式

格式: WAV (16-bit PCM)
采样率: 16kHz
声道: 单声道
理想片段长度: 3-15秒
可接受范围: 2-20秒
内容要求: 清晰的语音，背景噪音最小。

数据处理流水线

社区音频片段：收集原始贡献。
音频预处理：包括音量标准化、静音修剪、语音分割。
精选语音数据集：输出为16kHz单声道WAV文件。
模型训练：使用多个开源TTS模型进行实验。
评估：评估自然度、韵律、声音相似度。
开放语音实验：分享结果。

评估模型

项目初期将重点实验以下现代开源语音合成模型：

模型	用途
CosyVoice	高质量富有表现力的语音
XTTS v2	多语言神经语音克隆
Qwen-TTS	基于Transformer的语音生成
Fish-Speech	LLM风格的表现力语音克隆

未来实验可能包括Bark风格模型、风格调节技术和韵律微调。

数据集结构

ani-voice-rebuild/ ├── dataset/ ├── raw/ # 原始音频 │ └── drive_imports/ # 从共享文件夹导入的提交 ├── processed/ # 处理后数据 │ └── wavs/ # 训练用的WAV文件 └── metadata/ # 元数据（如metadata.csv）

贡献指南

音频贡献：提交干净的语音片段。
数据处理：协助音频分割、噪音清理、数据集验证。
模型实验：协助CosyVoice、XTTS、Qwen-TTS、Fish-Speech等模型的训练与实验。
评估：协助评估生成语音的自然度、声音相似度、韵律和长文本一致性。
隐私与尊重：仅贡献您愿意用于开放实验的录音。避免提交私人对话、包含多个说话人的录音或包含个人身份识别元数据的内容。

搜集汇总

数据集介绍

构建方式

在语音合成技术领域，高质量数据集的构建是模型性能的基石。Ani Voice Rebuild Dataset的构建过程体现了社区协作与系统化工程方法的结合。该数据集通过公开征集的方式，从社区成员处收集原始音频片段，这些片段需满足单人发音、背景噪音最小化及3至15秒时长的基本要求。随后，利用自动化预处理流水线对原始音频进行标准化处理，包括音量归一化、静音修剪以及语音分割，最终将音频统一转换为16kHz单声道WAV格式，形成可用于模型训练的规范化语音库。

特点

该数据集专注于捕捉特定声音的早期声学特征，旨在通过开源神经TTS模型进行声音重建。其核心特点在于强调数据的洁净度与一致性，所有音频均经过严格的预处理，确保格式、采样率与通道数的统一。数据集规模以60分钟为构建目标，这一时长被认为足以支持现代神经TTS模型进行有效的特征学习与实验。此外，数据集的结构设计清晰，包含原始音频、处理后的音频文件及配套元数据，便于后续的模型训练与评估工作。

使用方法

在语音克隆与合成的研究中，该数据集为探索开源TTS模型的性能提供了实验基础。使用者首先需要克隆项目仓库并安装必要的依赖环境，包括Python包及FFmpeg工具。通过运行提供的预处理脚本，可将符合格式要求的原始音频自动转换为标准化的训练片段。随后，利用验证脚本检查数据格式的合规性。处理后的数据集可直接用于多种现代TTS模型的训练实验，如CosyVoice、XTTS v2等，以评估其在声音自然度、韵律及音色相似性等方面的表现。

背景与挑战

背景概述

Ani Voice Rebuild Dataset 是2024年由开源社区发起的一项语音重建项目，旨在利用现代神经文本到语音技术重现Grok AI伴侣中Ani的早期声音特征。该项目由工程师社区主导，核心研究问题聚焦于探索开源TTS模型在声音克隆与重建方面的潜力，特别是针对特定声音特征的捕捉与再现。通过构建一个经过精心处理的语音数据集，该项目致力于推动开放语音合成技术的实验与协作，为个性化语音合成领域提供了宝贵的社区驱动研究范例。

当前挑战

该数据集旨在解决声音克隆与重建领域的挑战，即如何利用有限且多样化的社区音频源，精确捕捉并复现特定说话人的声音特质，包括音色、韵律和情感表达。在构建过程中，挑战主要源于音频数据的收集与处理：社区贡献的音频片段在质量、背景噪声和录音条件上存在显著差异，需通过自动化预处理流程实现音量归一化、静音修剪和语音分割，以生成符合训练要求的16kHz单声道WAV格式数据，同时确保数据隐私与伦理合规性。

常用场景

经典使用场景

在语音合成领域，Ani Voice Rebuild Dataset 的经典使用场景聚焦于通过社区协作构建高质量的语音数据集，以支持开源神经 TTS 模型的训练与微调。该数据集旨在重现特定说话人（如 Ani）的早期语音特征，为研究者提供了一个标准化的实验平台，用于探索语音克隆、声音重建及个性化语音合成的技术路径。通过精心设计的预处理流程，数据集将原始音频转化为格式统一的训练样本，为后续的模型评估与比较奠定了坚实基础。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在开源神经 TTS 模型的适配与优化上。例如，基于 CosyVoice、XTTS v2、Qwen-TTS 及 Fish-Speech 等模型的实验，探索了不同架构在音色重建、韵律控制及多语言合成方面的表现。这些工作不仅验证了数据集的有效性，还推动了开源语音合成工具链的完善，为后续研究者在声音克隆、表达性语音生成等方向提供了宝贵的经验与基准。

数据集最近研究