five

Evaluation-Multilingual-VC

收藏
Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/Scicom-intl/Evaluation-Multilingual-VC
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言数据集,包含多种语言的配置,每种配置都有相同的特征结构:语言标识、源文本、目标文本、点赞数、说话者ID和音频文件名。数据集被划分为训练集,每个语言配置的训练集都有指定的字节数和示例数。数据集适用于语音识别、机器翻译或多语言自然语言处理任务。
创建时间:
2026-02-19
原始信息汇总

数据集概述:Evaluation-Multilingual-VC

数据集基本信息

  • 数据集名称:Evaluation-Multilingual-VC
  • 托管地址:https://huggingface.co/datasets/Scicom-intl/Evaluation-Multilingual-VC
  • 配置数量:多个语言特定配置及一个合并配置(combine_filtered_whisper_large_v3

数据结构与特征

所有配置均包含以下核心特征(字段):

  • language:语言标识(字符串类型)
  • source_text:源文本(字符串类型)
  • target_text:目标文本(字符串类型)
  • upvotes:点赞数(整数类型)
  • speaker_id:说话人标识(字符串类型)
  • audio_filename:音频文件名(字符串类型)

特殊配置特征

  • 配置 combine_filtered_whisper_large_v3 额外包含一个索引字段 __index_level_0__(整数类型)。

数据规模与分割

所有配置仅包含一个数据分割:训练集(train)

各语言配置示例规模(部分列举)

语言配置 样本数量 数据集大小(字节) 下载大小(字节)
af 131 43,171 26,894
am 252 111,762 52,103
ar 500 153,332 78,928
as 379 168,833 67,550
az 95 31,429 20,500
ba 500 173,784 95,186
be 500 211,146 142,100
bg 500 199,362 83,163
bn 500 259,922 154,522
br 500 124,718 48,360
ca 500 154,756 106,709
combine_filtered_whisper_large_v3 34,142 11,750,786 5,707,734
cs 500 150,414 79,034
cy 500 140,916 83,342
da 500 141,496 60,567
de 500 157,780 96,637
el 500 164,978 70,737
en 500 154,956 123,429
es 500 159,310 127,634
et 500 192,432 115,598
eu 500 157,874 121,857
fa 500 164,342 107,535
fi 500 150,388 68,045
fr 500 159,688 101,578
gl 500 151,134 113,306
ha 500 138,696 54,484
he 392 143,348 64,484
hi 500 196,502 78,253
ht 5 1,335 4,497
hu 500 157,988 75,134
hy-AM 500 210,470 86,716
id 500 135,458 62,223
is 9 2,949 5,789
it 500 161,018 117,370
ja 500 154,228 114,670
ka 500 267,546 99,309
kk 500 170,704 74,734
ko 472 157,144 76,690
lo 26 12,716 10,533
lt 500 154,422 74,269
lv 500 144,804 97,059
mk 500 195,724 86,164
ml 500 220,380 81,007
mn 500 212,668 104,772
mr 500 261,024 98,828
mt 500 149,290 67,310
ne-NP 287 108,282 43,784
nl 500 157,258 72,000
nn-NO 423 119,872 50,899
oc 274 77,096 44,681
pa-IN 500 184,206 68,472
pl 500 148,288 107,231
ps (特征列表不完整) (信息缺失) (信息缺失)

:配置 ps 的特征列表在提供内容中不完整,其规模信息缺失。

核心特点总结

  1. 多语言性:涵盖全球数十种语言及方言。
  2. 统一结构:各语言配置具有相同的核心特征,便于跨语言处理与分析。
  3. 规模差异:不同语言的样本数量和数据大小存在显著差异,部分语言数据量较少。
  4. 合并配置:提供经过过滤和合并的大规模配置(combine_filtered_whisper_large_v3),适用于需要大量多语言数据的任务。
搜集汇总
数据集介绍
构建方式
在语音合成技术日益追求跨语言泛化能力的背景下,Evaluation-Multilingual-VC数据集通过系统化的多语言语料收集与处理流程构建而成。该数据集整合了来自Common Voice等开源语音项目的音频片段,并利用Whisper large-v3模型进行自动语音识别与文本转录,确保了源文本与目标文本的对应关系。构建过程中,每条数据均标注了语言代码、说话人ID以及音频文件名,同时保留了社区投票数据以反映语料质量,最终形成了覆盖数十种语言的标准化语音-文本对集合。
特点
该数据集最显著的特征在于其广泛的语言覆盖范围,囊括了从阿非利卡语到普什图语等数十种语言变体,为多语言语音合成研究提供了丰富的语音资源。每条数据样本均包含源文本、目标文本及对应的音频文件,并附有说话人标识和社区投票数,使得数据集兼具语音内容多样性与质量评估维度。数据规模在不同语言间呈现差异化分布,部分语言样本量达到500条,而少数语言则保留较小规模样本,这种结构为研究语言资源稀缺性下的语音合成性能提供了天然实验场景。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,利用其标准化的数据字段进行多语言语音合成模型的训练与评估。典型应用场景包括跨语言语音转换、多语言文本到语音合成系统的性能评测,以及低资源语言语音合成技术的研究。使用时可依据语言配置名称选择特定语种子集,结合音频文件路径与文本标注构建端到端训练流程,而投票数据可用于样本加权或质量过滤,以提升模型训练效果与评估信度。
背景与挑战
背景概述
在语音合成与语音转换技术蓬勃发展的背景下,多语言语音克隆任务逐渐成为研究热点。Evaluation-Multilingual-VC数据集应运而生,旨在为多语言语音克隆模型的评估提供标准化基准。该数据集由研究社区共同构建,其核心研究问题聚焦于如何在不同语言间实现高质量、高自然度的语音风格迁移与内容转换。通过涵盖从阿非利卡语到普什图语等数十种语言的语音-文本配对样本,该数据集极大地促进了语音合成领域对低资源语言和方言的覆盖,推动了语音技术在全球范围内的普惠应用,对构建包容性人工智能系统具有深远影响。
当前挑战
该数据集致力于解决多语言语音克隆领域的核心挑战,即如何克服不同语言在音系、韵律和声学特征上的巨大差异,实现跨语言的鲁棒性语音转换。具体而言,模型需在有限数据条件下准确捕捉并迁移说话人身份特征,同时保持目标语言的语音自然度与清晰度。在构建过程中,挑战同样显著:收集并标注大量低资源语言的语音数据面临资源匮乏与标注成本高昂的困境;确保音频质量、文本转录准确性以及说话人身份的一致性需要精细的质量控制流程;此外,平衡各语言样本的数量与多样性,以构建一个无偏且具有代表性的评估基准,亦是数据集构建者需要克服的关键难题。
常用场景
经典使用场景
在语音合成领域,多语言语音克隆技术面临着数据稀缺与质量参差不齐的挑战。Evaluation-Multilingual-VC数据集通过整合涵盖非洲语、亚洲语及欧洲语系等数十种语言的平行语料,为研究者提供了一个标准化的评估基准。该数据集常被用于训练和验证跨语言语音转换模型,特别是在零样本或少样本场景下,评估模型在未见语言上的泛化能力与语音保真度。
解决学术问题
该数据集有效缓解了多语言语音合成研究中数据标注不统一、语种覆盖有限的瓶颈问题。其结构化的音频-文本对齐数据支持对音素转换、韵律迁移等核心课题的量化分析,推动了跨语言声学建模的理论进展。通过引入众包投票机制筛选高质量样本,该资源为语音自然度与说话人相似度的客观评估提供了可靠依据,显著提升了学术研究的可复现性与比较公平性。
衍生相关工作
围绕该数据集衍生的经典工作包括跨语言语音表示学习框架XLS-R与多说话人波形生成模型YourTTS。这些研究通过利用数据集的多样本特性,探索了语音解耦编码与对抗训练策略,显著提升了低资源语言的合成质量。后续工作进一步结合元学习范式,构建出能够快速适应新语种的模块化系统,推动了语音合成技术向普惠化与自适应方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作