Evaluation-Multilingual-VC

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/Scicom-intl/Evaluation-Multilingual-VC

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言数据集，包含多种语言的配置，每种配置都有相同的特征结构：语言标识、源文本、目标文本、点赞数、说话者ID和音频文件名。数据集被划分为训练集，每个语言配置的训练集都有指定的字节数和示例数。数据集适用于语音识别、机器翻译或多语言自然语言处理任务。

创建时间：

2026-02-19

原始信息汇总

数据集概述：Evaluation-Multilingual-VC

数据集基本信息

数据集名称：Evaluation-Multilingual-VC
托管地址：https://huggingface.co/datasets/Scicom-intl/Evaluation-Multilingual-VC
配置数量：多个语言特定配置及一个合并配置（combine_filtered_whisper_large_v3）

数据结构与特征

所有配置均包含以下核心特征（字段）：

language：语言标识（字符串类型）
source_text：源文本（字符串类型）
target_text：目标文本（字符串类型）
upvotes：点赞数（整数类型）
speaker_id：说话人标识（字符串类型）
audio_filename：音频文件名（字符串类型）

特殊配置特征：

配置 combine_filtered_whisper_large_v3 额外包含一个索引字段 __index_level_0__（整数类型）。

数据规模与分割

所有配置仅包含一个数据分割：训练集（train）。

各语言配置示例规模（部分列举）

语言配置	样本数量	数据集大小（字节）	下载大小（字节）
af	131	43,171	26,894
am	252	111,762	52,103
ar	500	153,332	78,928
as	379	168,833	67,550
az	95	31,429	20,500
ba	500	173,784	95,186
be	500	211,146	142,100
bg	500	199,362	83,163
bn	500	259,922	154,522
br	500	124,718	48,360
ca	500	154,756	106,709
combine_filtered_whisper_large_v3	34,142	11,750,786	5,707,734
cs	500	150,414	79,034
cy	500	140,916	83,342
da	500	141,496	60,567
de	500	157,780	96,637
el	500	164,978	70,737
en	500	154,956	123,429
es	500	159,310	127,634
et	500	192,432	115,598
eu	500	157,874	121,857
fa	500	164,342	107,535
fi	500	150,388	68,045
fr	500	159,688	101,578
gl	500	151,134	113,306
ha	500	138,696	54,484
he	392	143,348	64,484
hi	500	196,502	78,253
ht	5	1,335	4,497
hu	500	157,988	75,134
hy-AM	500	210,470	86,716
id	500	135,458	62,223
is	9	2,949	5,789
it	500	161,018	117,370
ja	500	154,228	114,670
ka	500	267,546	99,309
kk	500	170,704	74,734
ko	472	157,144	76,690
lo	26	12,716	10,533
lt	500	154,422	74,269
lv	500	144,804	97,059
mk	500	195,724	86,164
ml	500	220,380	81,007
mn	500	212,668	104,772
mr	500	261,024	98,828
mt	500	149,290	67,310
ne-NP	287	108,282	43,784
nl	500	157,258	72,000
nn-NO	423	119,872	50,899
oc	274	77,096	44,681
pa-IN	500	184,206	68,472
pl	500	148,288	107,231
ps	（特征列表不完整）	（信息缺失）	（信息缺失）

注：配置 ps 的特征列表在提供内容中不完整，其规模信息缺失。

核心特点总结

多语言性：涵盖全球数十种语言及方言。
统一结构：各语言配置具有相同的核心特征，便于跨语言处理与分析。
规模差异：不同语言的样本数量和数据大小存在显著差异，部分语言数据量较少。
合并配置：提供经过过滤和合并的大规模配置（combine_filtered_whisper_large_v3），适用于需要大量多语言数据的任务。

搜集汇总

数据集介绍

构建方式

在语音合成技术日益追求跨语言泛化能力的背景下，Evaluation-Multilingual-VC数据集通过系统化的多语言语料收集与处理流程构建而成。该数据集整合了来自Common Voice等开源语音项目的音频片段，并利用Whisper large-v3模型进行自动语音识别与文本转录，确保了源文本与目标文本的对应关系。构建过程中，每条数据均标注了语言代码、说话人ID以及音频文件名，同时保留了社区投票数据以反映语料质量，最终形成了覆盖数十种语言的标准化语音-文本对集合。

特点

该数据集最显著的特征在于其广泛的语言覆盖范围，囊括了从阿非利卡语到普什图语等数十种语言变体，为多语言语音合成研究提供了丰富的语音资源。每条数据样本均包含源文本、目标文本及对应的音频文件，并附有说话人标识和社区投票数，使得数据集兼具语音内容多样性与质量评估维度。数据规模在不同语言间呈现差异化分布，部分语言样本量达到500条，而少数语言则保留较小规模样本，这种结构为研究语言资源稀缺性下的语音合成性能提供了天然实验场景。

使用方法

研究人员可通过HuggingFace数据集库直接加载该数据集，利用其标准化的数据字段进行多语言语音合成模型的训练与评估。典型应用场景包括跨语言语音转换、多语言文本到语音合成系统的性能评测，以及低资源语言语音合成技术的研究。使用时可依据语言配置名称选择特定语种子集，结合音频文件路径与文本标注构建端到端训练流程，而投票数据可用于样本加权或质量过滤，以提升模型训练效果与评估信度。

背景与挑战

背景概述

在语音合成与语音转换技术蓬勃发展的背景下，多语言语音克隆任务逐渐成为研究热点。Evaluation-Multilingual-VC数据集应运而生，旨在为多语言语音克隆模型的评估提供标准化基准。该数据集由研究社区共同构建，其核心研究问题聚焦于如何在不同语言间实现高质量、高自然度的语音风格迁移与内容转换。通过涵盖从阿非利卡语到普什图语等数十种语言的语音-文本配对样本，该数据集极大地促进了语音合成领域对低资源语言和方言的覆盖，推动了语音技术在全球范围内的普惠应用，对构建包容性人工智能系统具有深远影响。

当前挑战

该数据集致力于解决多语言语音克隆领域的核心挑战，即如何克服不同语言在音系、韵律和声学特征上的巨大差异，实现跨语言的鲁棒性语音转换。具体而言，模型需在有限数据条件下准确捕捉并迁移说话人身份特征，同时保持目标语言的语音自然度与清晰度。在构建过程中，挑战同样显著：收集并标注大量低资源语言的语音数据面临资源匮乏与标注成本高昂的困境；确保音频质量、文本转录准确性以及说话人身份的一致性需要精细的质量控制流程；此外，平衡各语言样本的数量与多样性，以构建一个无偏且具有代表性的评估基准，亦是数据集构建者需要克服的关键难题。

常用场景

经典使用场景

在语音合成领域，多语言语音克隆技术面临着数据稀缺与质量参差不齐的挑战。Evaluation-Multilingual-VC数据集通过整合涵盖非洲语、亚洲语及欧洲语系等数十种语言的平行语料，为研究者提供了一个标准化的评估基准。该数据集常被用于训练和验证跨语言语音转换模型，特别是在零样本或少样本场景下，评估模型在未见语言上的泛化能力与语音保真度。

解决学术问题

该数据集有效缓解了多语言语音合成研究中数据标注不统一、语种覆盖有限的瓶颈问题。其结构化的音频-文本对齐数据支持对音素转换、韵律迁移等核心课题的量化分析，推动了跨语言声学建模的理论进展。通过引入众包投票机制筛选高质量样本，该资源为语音自然度与说话人相似度的客观评估提供了可靠依据，显著提升了学术研究的可复现性与比较公平性。

衍生相关工作

围绕该数据集衍生的经典工作包括跨语言语音表示学习框架XLS-R与多说话人波形生成模型YourTTS。这些研究通过利用数据集的多样本特性，探索了语音解耦编码与对抗训练策略，显著提升了低资源语言的合成质量。后续工作进一步结合元学习范式，构建出能够快速适应新语种的模块化系统，推动了语音合成技术向普惠化与自适应方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集