Evaluation-Multilingual-VC
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/Scicom-intl/Evaluation-Multilingual-VC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言数据集,包含多种语言的配置,每种配置都有相同的特征结构:语言标识、源文本、目标文本、点赞数、说话者ID和音频文件名。数据集被划分为训练集,每个语言配置的训练集都有指定的字节数和示例数。数据集适用于语音识别、机器翻译或多语言自然语言处理任务。
创建时间:
2026-02-19
原始信息汇总
数据集概述:Evaluation-Multilingual-VC
数据集基本信息
- 数据集名称:Evaluation-Multilingual-VC
- 托管地址:https://huggingface.co/datasets/Scicom-intl/Evaluation-Multilingual-VC
- 配置数量:多个语言特定配置及一个合并配置(
combine_filtered_whisper_large_v3)
数据结构与特征
所有配置均包含以下核心特征(字段):
language:语言标识(字符串类型)source_text:源文本(字符串类型)target_text:目标文本(字符串类型)upvotes:点赞数(整数类型)speaker_id:说话人标识(字符串类型)audio_filename:音频文件名(字符串类型)
特殊配置特征:
- 配置
combine_filtered_whisper_large_v3额外包含一个索引字段__index_level_0__(整数类型)。
数据规模与分割
所有配置仅包含一个数据分割:训练集(train)。
各语言配置示例规模(部分列举)
| 语言配置 | 样本数量 | 数据集大小(字节) | 下载大小(字节) |
|---|---|---|---|
| af | 131 | 43,171 | 26,894 |
| am | 252 | 111,762 | 52,103 |
| ar | 500 | 153,332 | 78,928 |
| as | 379 | 168,833 | 67,550 |
| az | 95 | 31,429 | 20,500 |
| ba | 500 | 173,784 | 95,186 |
| be | 500 | 211,146 | 142,100 |
| bg | 500 | 199,362 | 83,163 |
| bn | 500 | 259,922 | 154,522 |
| br | 500 | 124,718 | 48,360 |
| ca | 500 | 154,756 | 106,709 |
| combine_filtered_whisper_large_v3 | 34,142 | 11,750,786 | 5,707,734 |
| cs | 500 | 150,414 | 79,034 |
| cy | 500 | 140,916 | 83,342 |
| da | 500 | 141,496 | 60,567 |
| de | 500 | 157,780 | 96,637 |
| el | 500 | 164,978 | 70,737 |
| en | 500 | 154,956 | 123,429 |
| es | 500 | 159,310 | 127,634 |
| et | 500 | 192,432 | 115,598 |
| eu | 500 | 157,874 | 121,857 |
| fa | 500 | 164,342 | 107,535 |
| fi | 500 | 150,388 | 68,045 |
| fr | 500 | 159,688 | 101,578 |
| gl | 500 | 151,134 | 113,306 |
| ha | 500 | 138,696 | 54,484 |
| he | 392 | 143,348 | 64,484 |
| hi | 500 | 196,502 | 78,253 |
| ht | 5 | 1,335 | 4,497 |
| hu | 500 | 157,988 | 75,134 |
| hy-AM | 500 | 210,470 | 86,716 |
| id | 500 | 135,458 | 62,223 |
| is | 9 | 2,949 | 5,789 |
| it | 500 | 161,018 | 117,370 |
| ja | 500 | 154,228 | 114,670 |
| ka | 500 | 267,546 | 99,309 |
| kk | 500 | 170,704 | 74,734 |
| ko | 472 | 157,144 | 76,690 |
| lo | 26 | 12,716 | 10,533 |
| lt | 500 | 154,422 | 74,269 |
| lv | 500 | 144,804 | 97,059 |
| mk | 500 | 195,724 | 86,164 |
| ml | 500 | 220,380 | 81,007 |
| mn | 500 | 212,668 | 104,772 |
| mr | 500 | 261,024 | 98,828 |
| mt | 500 | 149,290 | 67,310 |
| ne-NP | 287 | 108,282 | 43,784 |
| nl | 500 | 157,258 | 72,000 |
| nn-NO | 423 | 119,872 | 50,899 |
| oc | 274 | 77,096 | 44,681 |
| pa-IN | 500 | 184,206 | 68,472 |
| pl | 500 | 148,288 | 107,231 |
| ps | (特征列表不完整) | (信息缺失) | (信息缺失) |
注:配置 ps 的特征列表在提供内容中不完整,其规模信息缺失。
核心特点总结
- 多语言性:涵盖全球数十种语言及方言。
- 统一结构:各语言配置具有相同的核心特征,便于跨语言处理与分析。
- 规模差异:不同语言的样本数量和数据大小存在显著差异,部分语言数据量较少。
- 合并配置:提供经过过滤和合并的大规模配置(
combine_filtered_whisper_large_v3),适用于需要大量多语言数据的任务。
搜集汇总
数据集介绍
构建方式
在语音合成技术日益追求跨语言泛化能力的背景下,Evaluation-Multilingual-VC数据集通过系统化的多语言语料收集与处理流程构建而成。该数据集整合了来自Common Voice等开源语音项目的音频片段,并利用Whisper large-v3模型进行自动语音识别与文本转录,确保了源文本与目标文本的对应关系。构建过程中,每条数据均标注了语言代码、说话人ID以及音频文件名,同时保留了社区投票数据以反映语料质量,最终形成了覆盖数十种语言的标准化语音-文本对集合。
特点
该数据集最显著的特征在于其广泛的语言覆盖范围,囊括了从阿非利卡语到普什图语等数十种语言变体,为多语言语音合成研究提供了丰富的语音资源。每条数据样本均包含源文本、目标文本及对应的音频文件,并附有说话人标识和社区投票数,使得数据集兼具语音内容多样性与质量评估维度。数据规模在不同语言间呈现差异化分布,部分语言样本量达到500条,而少数语言则保留较小规模样本,这种结构为研究语言资源稀缺性下的语音合成性能提供了天然实验场景。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,利用其标准化的数据字段进行多语言语音合成模型的训练与评估。典型应用场景包括跨语言语音转换、多语言文本到语音合成系统的性能评测,以及低资源语言语音合成技术的研究。使用时可依据语言配置名称选择特定语种子集,结合音频文件路径与文本标注构建端到端训练流程,而投票数据可用于样本加权或质量过滤,以提升模型训练效果与评估信度。
背景与挑战
背景概述
在语音合成与语音转换技术蓬勃发展的背景下,多语言语音克隆任务逐渐成为研究热点。Evaluation-Multilingual-VC数据集应运而生,旨在为多语言语音克隆模型的评估提供标准化基准。该数据集由研究社区共同构建,其核心研究问题聚焦于如何在不同语言间实现高质量、高自然度的语音风格迁移与内容转换。通过涵盖从阿非利卡语到普什图语等数十种语言的语音-文本配对样本,该数据集极大地促进了语音合成领域对低资源语言和方言的覆盖,推动了语音技术在全球范围内的普惠应用,对构建包容性人工智能系统具有深远影响。
当前挑战
该数据集致力于解决多语言语音克隆领域的核心挑战,即如何克服不同语言在音系、韵律和声学特征上的巨大差异,实现跨语言的鲁棒性语音转换。具体而言,模型需在有限数据条件下准确捕捉并迁移说话人身份特征,同时保持目标语言的语音自然度与清晰度。在构建过程中,挑战同样显著:收集并标注大量低资源语言的语音数据面临资源匮乏与标注成本高昂的困境;确保音频质量、文本转录准确性以及说话人身份的一致性需要精细的质量控制流程;此外,平衡各语言样本的数量与多样性,以构建一个无偏且具有代表性的评估基准,亦是数据集构建者需要克服的关键难题。
常用场景
经典使用场景
在语音合成领域,多语言语音克隆技术面临着数据稀缺与质量参差不齐的挑战。Evaluation-Multilingual-VC数据集通过整合涵盖非洲语、亚洲语及欧洲语系等数十种语言的平行语料,为研究者提供了一个标准化的评估基准。该数据集常被用于训练和验证跨语言语音转换模型,特别是在零样本或少样本场景下,评估模型在未见语言上的泛化能力与语音保真度。
解决学术问题
该数据集有效缓解了多语言语音合成研究中数据标注不统一、语种覆盖有限的瓶颈问题。其结构化的音频-文本对齐数据支持对音素转换、韵律迁移等核心课题的量化分析,推动了跨语言声学建模的理论进展。通过引入众包投票机制筛选高质量样本,该资源为语音自然度与说话人相似度的客观评估提供了可靠依据,显著提升了学术研究的可复现性与比较公平性。
衍生相关工作
围绕该数据集衍生的经典工作包括跨语言语音表示学习框架XLS-R与多说话人波形生成模型YourTTS。这些研究通过利用数据集的多样本特性,探索了语音解耦编码与对抗训练策略,显著提升了低资源语言的合成质量。后续工作进一步结合元学习范式,构建出能够快速适应新语种的模块化系统,推动了语音合成技术向普惠化与自适应方向演进。
以上内容由遇见数据集搜集并总结生成



