F5TTSx

Hugging Face2026-02-08 更新2026-02-09 收录

下载链接：

https://huggingface.co/datasets/LeeAeron/F5TTSx

下载链接

链接失效反馈

官方服务：

资源简介：

F5-TTSx 是 F5-TTS 语音合成器的定制版本，专为在 VRAM 有限的系统上获得更流畅的语音合成设置而设计。它支持所有官方 F5-TTS 模型，包括经过微调的自定义模型，并额外提供多语言模型（如中文、英文、芬兰语、法语、德语、印地语、意大利语、日语、拉脱维亚语、俄语和西班牙语）。该项目优化了 NVIDIA GPU 的性能，提供了增强的 UI 设置和稳定性改进，支持多种音频输入和输出格式，并包含自动保存输出文件、外部词典支持以及俄语重音自动标记等功能。F5-TTSx 适用于语音合成和 AI 语音聊天任务，代码采用 MIT 许可证，而预训练模型则使用 CC-BY-NC 许可证。

创建时间：

2026-02-03

原始信息汇总

F5-TTSx 数据集概述

数据集基本信息

数据集名称：F5-TTSx
描述：F5-TTSx 是 F5-TTS 语音合成器的自定义构建版本，旨在为语音合成提供更流畅的设置，特别是在显存有限的系统上。

核心特性

针对所有配备 NVIDIA GPU 的系统进行了优化。
提供主要的 .bat 菜单，包含安装/重新安装项目的选项。
增强了用户界面设置，包含有用的功能和稳定性改进。

支持的模型

所有官方的 F5-TTS 模型，包括微调的自定义模型（通过自定义配置文件支持）。
用于 AI 语音聊天的 Qwen 2.5/3B Instruct 和 Microsoft Phi 4 mini instruct 模型。

附加模型列表

多语言（中文和英文）：https://huggingface.co/SWivid/F5-TTS/tree/main/F5TTS_v1_Base（已包含在项目中）
芬兰语：https://huggingface.co/AsmoKoskinen/F5-TTS_Finnish_Model
法语：https://huggingface.co/RASPIAUDIO/F5-French-MixedSpeakers-reduced
德语：https://huggingface.co/hvoss-techfak/F5-TTS-German
印地语：https://huggingface.co/SPRINGLab/F5-Hindi-24KHz
意大利语：https://huggingface.co/alien79/F5-TTS-italian
日语：https://huggingface.co/Jmica/F5TTS/tree/main/JA_21999120
拉脱维亚语：https://huggingface.co/RaivisDejus/F5-TTS-Latvian
俄语：https://huggingface.co/hotstone228/F5-TTS-Russian
俄语：https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN（已包含在项目中）
俄语：https://huggingface.co/ESpeech/ESpeech-TTS-1_SFT-95K（已包含在项目中）
俄语：https://huggingface.co/ESpeech/ESpeech-TTS-1_SFT-256K（已包含在项目中）
俄语：https://huggingface.co/ESpeech/ESpeech-TTS-1_podcaster（已包含在项目中）
俄语：https://huggingface.co/ESpeech/ESpeech-TTS-1_RL-V1（已包含在项目中）
俄语：https://huggingface.co/ESpeech/ESpeech-TTS-1_RL-V2（已包含在项目中）
西班牙语：https://huggingface.co/jpgallegoar/F5-Spanish

重要模型说明

F5-TTS_v1 模型：是来自自身仓库的原始 F5-TTS 模型（https://huggingface.co/LeeAeron/F5TTSx/models/F5TTS_v1_Base）。
Misha24-10_v2 模型：是 Misha24-10 微调的俄语模型 v2，来自自身仓库（https://huggingface.co/LeeAeron/F5TTSx/models/F5TTS_RU/v2）。
Misha24-10_v4 模型：是 Misha24-10 微调的俄语模型 v4（冬季版），来自自身仓库（https://huggingface.co/LeeAeron/F5TTSx/models/F5TTS_RU/v4）。
ESpeech-TTS-1 系列模型：包括 podcaster、RL-V1、RL-V2、SFT-95K、SFT-256K，是由 ESpeech TTS 提供的模型，存储于我的仓库中。

系统要求与安装

编程语言与框架：使用 Python 3.11 和 Torch 2.8.0 Cuda 12.8。
支持的 GPU：支持 GTX 和 RTX 系列显卡，包括 GTX10xx-16xx 和 RTX 20xx–50xx。
操作系统：主要支持 Windows 10 或更高版本，Windows 7 或更低版本的功能无法保证。

Windows 安装步骤

从发布页面（https://github.com/LeeAeron/F5-TTSx/releases）下载 Windows 版的 F5-TTSx .bat 安装程序。
将 BAT 文件放置在任何分区的根目录下的任意文件夹中，文件夹名称应为简短的拉丁字母，不含空格或特殊字符。
运行 BAT 文件，选择“安装（2）”，程序将下载、解压并配置所有所需环境。
安装完成后，选择“启动（1）”，程序将启动浏览器并加载必要的文件、模型，同时会加载官方的 F5-TTS 英文/中文模型。

新增功能特性

增加了 7 个额外模型供使用，删除了 E2-TTS 模型。
提供可下载的可选语音包。
支持根据显存水平更换 Whisper 语音转文本模型。
支持输入音频文件格式：wav/mp3/aac/m4a/m4b/ogg/flac/opus。
支持更改输出文件格式：wav/mp3/aac/m4a/m4b/ogg/flac/opus。
自动将合成的输出文件保存到本地的“outputs”文件夹（位于项目文件夹内）。
支持使用位于本地“dicts”文件夹（位于项目文件夹内）的外部 .dic 词典以实现正确的语音发音。
支持使用项目文件夹内的“accent_fixes.yaml”文件进行正确语音发音的外部词典。
支持通过 RUACCENT 模块为俄语预先放置重音标记（通过用户界面中的 Ruaccent 按钮）。
支持通过 RuAccent 模块为俄语自动放置重音标记（通过用户界面中的 RuAccent 复选框，适用于未经准备的俄语文本，在语音合成过程中“实时”处理）。
为“待合成文本”区域增加了额外的复制/粘贴/清除按钮（可与剪贴板协作）。
为对话合成模式提供了独立的额外语音生成设置。

许可信息

代码许可：F5-TTSx 代码根据 MIT 许可证发布。
预训练模型许可：由于训练数据 Emilia 是一个野外数据集，预训练模型根据 CC-BY-NC 许可证授权。

搜集汇总

数据集介绍

构建方式

在语音合成技术不断演进的背景下，F5TTSx数据集作为F5-TTS语音合成器的定制版本，其构建过程体现了对系统资源适配性的深度优化。该数据集通过集成官方F5-TTS模型及多种经过微调的自定义模型，并专门针对有限显存（VRAM）的系统环境进行重构，确保了在多种硬件配置上的流畅运行。构建过程中，开发者采用了模块化设计，将多语言模型（如中文、英文、芬兰语、法语等）以及特定领域的俄语模型（如播客风格、强化学习版本）纳入统一框架，同时通过便携式安装脚本实现环境的自动部署与配置，从而形成了一个高度可扩展且易于部署的语音合成资源集合。

特点

F5TTSx数据集在语音合成领域展现出显著的多语言与多模型兼容特性，支持包括官方F5-TTS模型及多种自定义微调模型，覆盖英语、中文、俄语、日语等十余种语言，满足了跨语言语音生成的需求。其技术特点在于优化了用户界面与系统稳定性，并引入了针对俄语的重音自动标注模块（RuAccent），提升了合成语音的自然度与准确性。此外，数据集支持多种音频输入输出格式（如WAV、MP3、AAC等），并允许用户通过外部词典文件调整发音，增强了语音合成的灵活性与可控性，特别适合在资源受限的GPU环境中实现高质量的语音合成应用。

使用方法

使用F5TTSx数据集进行语音合成时，用户需在Windows系统环境中通过提供的批处理安装程序完成便携式环境的部署。安装后，可通过启动脚本加载浏览器界面，选择所需的预训练模型（如多语言基础模型或特定语言微调模型），并利用集成的用户界面调整合成参数，包括音频格式、重音处理及对话模式设置。数据集支持文本输入与外部音频文件处理，合成结果将自动保存至本地输出文件夹。对于高级用户，可通过配置外部词典文件或重音修正文件进一步优化发音准确性，实现从文本到流畅、忠实语音的高效转换。

背景与挑战

背景概述

F5TTSx数据集作为F5-TTS语音合成系统的定制化构建版本，其研究背景植根于深度学习驱动的语音生成领域。该数据集由开发者LeeAeron等人于近期创建，旨在优化原始F5-TTS模型在有限显存设备上的运行效率，并扩展多语言支持。核心研究问题聚焦于通过流匹配扩展技术实现流畅且保真的语音合成，同时降低计算资源门槛，以促进语音合成技术在边缘设备和多样化语言环境中的普及。这一努力不仅延续了F5-TTS在开源语音合成社区的影响力，还为多语种语音生成提供了实用的工程化解决方案。

当前挑战

F5TTSx数据集所针对的领域挑战在于实现高自然度、多语言兼容的实时语音合成，尤其在资源受限环境下保持音质与效率的平衡。构建过程中的具体挑战包括：其一，模型需适配从GTX到RTX系列的不同GPU架构，确保跨硬件平台的稳定部署；其二，集成并优化包括俄语、法语、日语等在内的十余种语言模型，涉及数据对齐、发音规则统一等复杂处理；其三，在保持MIT开源协议的同时，部分预训练模型受CC-BY-NC许可证限制，导致使用场景存在合规性约束。这些挑战共同指向了语音合成技术在工程落地与学术开放之间的张力。

常用场景

经典使用场景

在语音合成技术领域，F5TTSx数据集为研究者提供了多语言、高质量的语音生成基准。其经典使用场景在于构建端到端的文本转语音系统，尤其适用于在有限计算资源下实现流畅且保真的语音合成。通过集成流匹配扩展技术，该数据集能够生成自然度极高的语音波形，广泛应用于语音合成模型的训练与评估，为多语言语音合成研究奠定了坚实基础。

衍生相关工作

围绕F5TTSx数据集，衍生了一系列重要的研究工作。社区基于其核心架构开发了针对芬兰语、法语、德语、印地语、意大利语、日语、拉脱维亚语、俄语和西班牙语等特定语言的精细化模型。这些工作不仅扩展了原数据集的语言覆盖范围，还深入探索了语音风格迁移、口音修正、对话式语音合成等前沿方向，共同推动了开源语音合成生态的繁荣发展。

数据集最近研究