AnimeScore

github2026-03-12 更新2026-03-28 收录

下载链接：

https://github.com/sizigi/animescore

下载链接

链接失效反馈

官方服务：

资源简介：

AnimeScore是一个基于偏好的数据集和框架，用于评估动漫风格语音质量。它包含3000个来自三个公开可用的日语语音语料库的语音样本，以及15000个A/B偏好对注释。数据集还包含了187名来自日本众包平台的注释者信息。

AnimeScore is a preference-based dataset and framework for evaluating anime-style speech quality. It includes 3000 speech samples sourced from three publicly available Japanese speech corpora, as well as 15000 A/B preference pair annotations. The dataset also contains information about 187 annotators recruited from a Japanese crowdsourcing platform.

创建时间：

2026-03-09

原始信息汇总

AnimeScore 数据集概述

数据集简介

AnimeScore 是一个基于偏好的数据集和框架，旨在评估动漫风格语音的质量。由于动漫相似度缺乏通用的绝对度量标准，该项目采用成对偏好方法：收集人类A/B判断，在冻结的SSL特征上训练RankNet评分器，并将得到的排名锚定到类似MOS的连续尺度上。

数据集构成

语音话语

总话语数：3,000条
来源：来自三个公开可用的日语语音语料库
筛选标准：
- 时长：2–10秒
- 字符错误率 (CER) < 0.30 (使用whisper-large-v3)
- UTMOS自然度得分 > 3.0
- 通过ECAPA-TDNN嵌入聚类确保说话人多样性
音频文件：不包含在仓库中，需根据指引下载和处理。

语料库分布

语料库	训练集	测试集	总计
Anim-400k	1,065	250	1,315
ReazonSpeech	828	120	948
Coco-Nut	607	130	737
总计	2,500	500	3,000

A/B偏好对

划分	偏好对数量
训练集	12,500
测试集	2,500
总计	15,000

标注者信息

总人数：187人
招募平台：Lancers（日本众包平台）

标注者统计

类别	分组	人数
年龄	20岁或以下	8
	30岁	48
	40岁	80
	50岁或以上	51
性别	男性	142
	女性	45
动漫熟悉度	低	9
	中	103
	高	75

模型框架

架构

音频 → 冻结的SSL编码器 → BiLSTM → 平均池化 → MLP → 得分 s(x) ∈ ℝ

给定一对样本 (a, b)，模型预测 P(a ≻ b) = σ(s_a − s_b)，并使用RankNet（成对逻辑）损失进行训练。

性能结果

骨干网络	HuggingFace ID	成对准确率	AUC
HuBERT	`facebook/hubert-base-ls960`	82.4%	0.908
WavLM	`microsoft/wavlm-base`	81.1%	0.894
data2vec	`facebook/data2vec-audio-base-960h`	77.1%	0.858
wav2vec 2.0	`facebook/wav2vec2-base-960h`	74.3%	0.825

许可证

代码：MIT许可证。
音频数据：归属于各自原始语料库的许可方（Anim-400k, ReazonSpeech, Coco-Nut）。

搜集汇总

数据集介绍

构建方式

在动漫风格语音合成领域，AnimeScore数据集通过系统化方法构建，旨在解决评价标准缺失的问题。该数据集从三个公开日语语音库中筛选出3000条语音片段，依据时长、字符错误率和自然度得分进行质量控制，并借助说话人嵌入聚类确保多样性。随后，研究团队通过日本众包平台招募187名标注者，基于其年龄、性别及动漫熟悉度构建多样化标注群体，最终收集了15000对A/B偏好标注，形成基于成对比较的评估框架。

特点

AnimeScore数据集的核心特点在于其基于偏好比较的评估范式，避免了绝对评分的主观局限。数据集涵盖了从Anim-400k、ReazonSpeech和Coco-Nut等多元语料库中提取的语音样本，确保了风格与内容的广泛代表性。标注过程充分考虑了标注者背景的多样性，包括不同年龄层、性别分布及动漫熟悉度，从而增强了评估结果的可靠性与泛化能力。此外，数据集提供了完整的模型训练框架，支持基于RankNet的排序模型开发，为动漫风格语音的客观量化评估奠定了坚实基础。

使用方法

使用AnimeScore数据集时，研究者需首先按照指南下载原始音频数据并进行预处理，以获取符合格式要求的语音片段。随后，可利用提供的成对偏好标注训练RankNet评分模型，该模型以冻结的自监督学习特征为输入，通过双向LSTM与多层感知机输出连续评分。评估阶段可通过计算成对准确率与AUC等指标，量化模型在测试集上的性能。这一流程为动漫风格语音的质量评估与生成系统优化提供了标准化工具，支持后续研究的可复现性与比较分析。

背景与挑战

背景概述

在语音合成与风格化表达的研究领域，动漫风格语音的评估长期缺乏标准化度量体系。AnimeScore数据集由Joonyong Park与Jerry Li等人创建，旨在应对这一核心研究问题。该数据集采用基于成对偏好的方法论，通过收集人类A/B判断，并基于冻结的自监督学习特征训练RankNet评分器，将结果锚定至类似平均意见分数的连续尺度。其构建整合了来自Anim-400k、ReazonSpeech及Coco-Nut三个公开日语语音语料库的3000条语音片段，并经由严格的质量与多样性筛选，为动漫风格语音的客观评估提供了重要基准，推动了语音合成领域在风格化质量度量方面的发展。

当前挑战

AnimeScore数据集致力于解决动漫风格语音质量评估的挑战，其核心在于如何量化缺乏绝对尺度的“动漫感”。具体挑战包括：在领域问题层面，需克服主观感知差异，建立可靠且一致的评估标准；在构建过程中，面临语音片段的质量筛选、标注者群体多样性保障，以及基于成对偏好数据训练稳健评分模型的复杂性。这些挑战共同凸显了在高度主观的语音风格领域实现客观度量的内在难度。

常用场景

经典使用场景

在语音合成与风格转换领域，评估动漫风格语音质量一直缺乏标准化度量。AnimeScore通过构建成对偏好数据集，为研究者提供了基于人类判断的基准框架。该数据集常用于训练RankNet评分模型，以量化语音的动漫风格相似度，从而支持语音生成系统的客观比较与优化，尤其在动漫角色语音合成任务中，成为评估生成语音自然度与风格一致性的核心工具。

解决学术问题

AnimeScore解决了动漫风格语音评估中主观性强、缺乏统一标准的问题。通过收集大规模人类A/B偏好标注，并基于冻结自监督学习特征训练RankNet模型，它将模糊的动漫风格感知转化为连续可度量的分数。这一方法不仅克服了绝对评分尺度缺失的挑战，还为语音风格迁移、生成模型优化等研究提供了可复现的评估基准，推动了语音合成领域向更精细化、人性化方向发展。

衍生相关工作

基于AnimeScore的框架，衍生出多项经典研究工作。例如，研究者扩展其偏好标注方法至其他语音风格评估任务，如情感语音或方言合成。同时，该数据集的RankNet架构启发了更高效的对比学习模型，用于多模态语音-文本对齐。此外，部分工作结合AnimeScore与生成对抗网络，开发出能直接优化动漫风格分数的端到端语音合成系统，进一步推动了风格化语音生成的技术前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集