J-HARD-TTS-Eval

github2026-01-28 更新2026-01-30 收录

下载链接：

https://github.com/Parakeet-Inc/J-HARD-TTS-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

J-HARD-TTS-Eval是一个用于评估自回归日语文本到语音（TTS）模型鲁棒性的基准测试。该基准包含4个子集，分别从不同角度评估模型鲁棒性：1) Short子集：包含仅1到3个音节的极短话语，评估模型在合成非常短序列时的稳定性；2) Repetition子集：包含频繁重复相同短语的句子，评估模型对跳过或额外重复的鲁棒性；3) Rhyme子集：包含富含头韵或押韵的句子，评估模型对重复音韵模式的稳定性；4) Continuation子集：包含上下文突然中断的不完整句子，评估模型是否能忠实合成输入文本而不过度补全上下文。数据集设计最小化G2P使用的影响，并限制使用常用汉字。

J-HARD-TTS-Eval is a benchmark for evaluating the robustness of autoregressive Japanese text-to-speech (TTS) models. This benchmark includes four subsets that assess model robustness from distinct perspectives: 1) Short subset: consists of extremely short utterances with only 1 to 3 syllables, evaluating the model's stability when synthesizing ultra-short sequences; 2) Repetition subset: contains sentences with frequently repeated identical phrases, evaluating the model's robustness against skipped or unintended extra repetitions; 3) Rhyme subset: includes sentences rich in alliteration or rhymes, evaluating the model's stability toward repeated phonological patterns; 4) Continuation subset: contains incomplete sentences with sudden contextual interruptions, evaluating whether the model can faithfully synthesize the input text without over-completing the context. The dataset is designed to minimize the impact of G2P usage and restrict the use of commonly used Japanese kanji.

创建时间：

2026-01-21

原始信息汇总

J-HARD-TTS-Eval 数据集概述

数据集简介

J-HARD-TTS-Eval 是一个用于评估自回归日语文本转语音（TTS）模型鲁棒性的基准测试。该基准包含4个子集，每个子集旨在从不同角度评估模型的鲁棒性。

数据集构成

子集详情

数据集包含以下4个子集，每个子集包含40个样本：

子集	评估目标
Short	由仅包含1到3个音节的极短话语组成。评估合成极短序列时模型的稳定性。
Repetition	由包含相同短语频繁重复的句子组成。评估模型对跳过或额外重复的鲁棒性，并检查模型能否在没有过早停止的情况下完成话语。
Rhyme	由富含头韵或押韵的句子组成。评估与Repetition子集相似的方面，但测试的是对重复出现的音韵模式而非相同词汇重复的稳定性。
Continuation	由上下文被突然截断的不完整句子组成。评估模型能否忠实于输入文本进行合成，而不会过度补全上下文或任意生成输入文本中不存在的延续内容。

数据格式

每个子集的数据文件（位于 ./corpora 目录）中，每行数据格式如下：

[提示语音文件名] | [提示语音转录文本] | [目标文件名] | [目标文本]

数据设计特点

目标文本设计：旨在最小化是否使用G2P（字素到音素转换）及其潜在性能差异的影响。
排除歧义词汇：例如排除了“今日”（可读作 Kyou 或 Konnichi）和“17”（Juushichi 或 Juunana）等具有歧义读法的词汇。
汉字限制：严格限制使用常用汉字范围内的汉字字符。
提示音频来源：每个话语都附带有提示音频和转录文本，用于零样本合成。这些提示源自Mozilla的Common Voice数据集，并经过筛选（语音时长≥5秒，UTMOS评分≥2.5）。

数据获取与访问

主要访问方式：可通过Hugging Face Datasets库加载。 python from datasets import load_dataset ds = load_dataset("Parakeet-Inc/J-HARD-TTS-Eval", subset, split="test")
批量下载：可通过Google Drive链接下载：https://drive.google.com/file/d/1pcnRvqgNFcyGk0RzeWoxAXrCaQRCukOc/view?usp=drive_link
Hugging Face页面：https://huggingface.co/datasets/Parakeet-Inc/J-HARD-TTS-Eval

评估方法

1. 字符错误率（CER）

ASR模型：结合使用Whisper large-v3模型和ReazonSpeech ESPNet v2模型进行语音识别，并采用每句话CER较低的结果。
评估指标：
- CER_Best：5次推理中错误率最低的转录结果计算的CER。
- CER_Worst：5次推理中错误率最高的转录结果计算的CER。
- CER_Average：所有转录结果计算的CER的平均值（主要指标）。
计算细节：使用Micro CER。文本首先被规范化，然后使用pyopenjtalk转换为假名（拼音字符），以专注于TTS模型正确发音内容的鲁棒性。

2. 说话人相似度

模型：使用WavLM-Large ECAPA-TDNN计算提示语音与零样本合成语音之间的说话人相似度。
预处理与过滤：
- 最大长度限制（20秒）：超过20秒的音频被截断至20秒。
- 最小长度限制（2秒）：修剪首尾静音后短于2秒的语音片段被排除在计算之外（导致Short子集中大多数数据被跳过）。
过滤条件：根据CER阈值（0、10、30、50、100 和 Unfiltered）过滤数据后计算分数，以检查内容准确性对说话人相似度分数的影响。

已评估模型

基准测试评估了以下支持日语的TTS模型，包括最新的基于语言模型的零样本模型，以及基于JSUT语料库训练的传统自回归方法（Transformer-TTS, Tacotron2）和非自回归方法（FastSpeech2）作为参考。

零样本模型

模型	发布日期	自回归？	参数量	论文链接
XTTS-v2	2023-12	是	441.0M (424.2M)	https://arxiv.org/abs/2406.04904
CosyVoice2-0.5B	2024-05	是	AR: 505.8M (357.9M)<br>NAR: 112.5M	https://arxiv.org/abs/2412.10117
FishAudio-S1-mini (OpenAudio S1-mini)	2025-05	是	AR: 801.4M (440.5M)<br>NAR: 58.73M	https://arxiv.org/abs/2411.01156
Qwen3-TTS-12Hz-0.6B-Base	2026-01	是	AR: 764.2M (437.3M)<br>NAR: 141.6M	https://arxiv.org/abs/2601.15621
Qwen3-TTS-12Hz-1.7B-Base	2026-01	是	AR: 1.703B (1.403B)<br>NAR: 175.1M	https://arxiv.org/abs/2601.15621

单说话人模型（JSUT）

模型	自回归？	参数量	论文链接
Tacotron2	是	26.66M	https://arxiv.org/abs/1712.05884
Transformer-TTS	是	33.04M	https://arxiv.org/abs/1809.08895
FastSpeech2	否	37.12M	https://arxiv.org/abs/2006.04558

评估结果摘要

CER结果（平均百分比）

Short子集

最佳模型：Qwen3-TTS-12Hz-1.7B-Base (4.724%)
最差模型：CosyVoice2-0.5B (71.50%)

Repetition子集

最佳模型：Qwen3-TTS-12Hz-1.7B-Base (10.57%)
最差模型：FishAudio-S1-mini (35.19%)

Rhyme子集

最佳模型：XTTS-v2 (1.064%)
最差模型：Qwen3-TTS-12Hz-0.6B-Base (4.292%)

Continuation子集

最佳模型：FishAudio-S1-mini (1.257%)
最差模型：CosyVoice2-0.5B (5.456%)

说话人相似度结果（Unfiltered）

最高相似度：Qwen3-TTS-12Hz-1.7B-Base (0.7530)
最低相似度：XTTS-v2 (0.6145)

引用

如果研究中使用此基准，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在日语语音合成领域，评估自回归模型的鲁棒性对推动技术发展至关重要。J-HARD-TTS-Eval数据集的构建遵循严谨的科学方法，其语料设计聚焦于四个具有挑战性的子集：极短话语、重复短语、押韵句式和不完整句子。目标文本经过精心筛选，排除了读音歧义的词汇，并严格限定于常用汉字范围，以最小化字音转换模型的影响。提示音频选自Common Voice数据集，通过时长不少于5秒及UTMOS评分高于2.5的严格过滤，确保了高质量的语音参考。

特点

该数据集的核心特征在于其针对自回归日语TTS模型鲁棒性的多维度评估框架。四个子集分别从序列长度、重复模式、语音韵律和上下文完整性等角度设计，全面检验模型在极端条件下的稳定性。数据集提供了标准化的提示音频与文本对，支持零样本合成评估，且所有语料均经过语音质量筛选和文本规范化处理。其结构化的评估流程，包括字符错误率与说话人相似度计算，为模型性能提供了可量化的比较基准。

使用方法

使用该数据集进行模型评估时，首先需通过Hugging Face Datasets库加载指定子集，并利用目标TTS模型生成合成语音。评估过程分为三个阶段：合成语音需进行五次推理以考察稳定性；字符错误率计算结合Whisper large-v3和ReazonSpeech ESPNet v2模型，采用微观CER指标并转换为假名形式以聚焦发音准确性；说话人相似度则基于WavLM-Large ECAPA-TDNN模型，在考虑音频长度限制和CER过滤条件下计算得分。最终结果以结构化文件输出，便于跨模型对比分析。

背景与挑战

背景概述

J-HARD-TTS-Eval 是由 Parakeet-Inc 团队于2025年提出的一个专门用于评估日语自回归文本转语音模型鲁棒性的基准数据集。该数据集的设计灵感来源于 Seed-TTS-Eval，旨在深入探究TTS模型在处理高难度文本序列时的表现。其核心研究问题聚焦于模型在零样本合成场景下，面对极端短句、重复短语、押韵结构及不完整上下文等挑战性语言模式时的序列一致性与稳定性。通过构建四个针对性子集，该数据集为日语TTS领域提供了细粒度的评估工具，推动了模型在真实复杂场景下的可靠性研究，对提升语音合成技术的实用性与泛化能力具有显著影响力。

当前挑战

该数据集致力于解决日语自回归TTS模型在序列一致性评估中的关键挑战，具体包括模型对极短语音合成的稳定性、重复或押韵模式下的抗干扰能力，以及面对不完整文本时避免过度补全的精确性。在构建过程中，挑战主要体现在语料设计上：需精心筛选不含歧义读音的词汇并限制于常用汉字范围，以最小化字音转换环节的干扰；同时，从 Common Voice 中选取高质量提示音频时，需综合考量语音时长与UTMOS评分，确保评估焦点集中于模型本身而非前端数据质量。此外，评估流程需克服现有ASR模型在短语音或重复文本上的幻觉问题，通过融合多模型识别策略来保证字符错误率计算的准确性。

常用场景

经典使用场景

在日语语音合成领域，J-HARD-TTS-Eval数据集被广泛用于评估自回归文本转语音模型的鲁棒性。该数据集通过四个精心设计的子集——超短句、重复句、韵律句和未完成句，系统性地检验模型在极端文本输入下的表现。研究者通常利用该数据集对模型进行零样本合成测试，通过多次推理生成语音，并计算字符错误率和说话人相似度，从而全面衡量模型在序列一致性和稳定性方面的能力。

衍生相关工作

该数据集直接衍生于Seed-TTS-Eval基准，并针对日语语言特性进行了深度适配与扩展。其评估框架启发了后续一系列针对多语言TTS鲁棒性的研究工作，例如结合Whisper与ReazonSpeech的双重ASR评估策略，以及基于WavLM-Large ECAPA-TDNN的说话人相似度计算方法。这些方法已被广泛应用于比较XTTS-v2、CosyVoice、FishAudio等前沿模型的性能，促进了零样本语音合成领域评估范式的演进。

数据集最近研究