Praxel/codeswitch-pairs-lase-heldout
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Praxel/codeswitch-pairs-lase-heldout
下载链接
链接失效反馈官方服务:
资源简介:
Codeswitch Pairs LASE — Western held-out corpus数据集包含1043个跨脚本的语音对,用于评估在`Praxel/codeswitch-pairs-lase`上训练的说话人编码器的泛化能力。数据集由8个ElevenLabs西方多语言语音生成,支持英语(en)、印地语(hi)、泰卢固语(te)和泰米尔语(ta)四种语言。每个语音对包含元数据,如语音ID、语言、文本提示、音频路径和质量评分。音频为16 kHz单声道WAV格式,每段约2秒。数据集还提供了统计信息,如语音对数量、语音数量、语言种类和质量门槛。数据集的来源是通过ElevenLabs Multilingual v2 API合成的,语音ID是公开的ElevenLabs目录语音,用于研究/评估目的。文本提示是短通用英语短语的翻译/音译。
The Codeswitch Pairs LASE — Western held-out corpus dataset contains 1043 held-out cross-script utterance pairs from 8 ElevenLabs Western Multilingual voices, used to evaluate generalisation of speaker encoders trained on `Praxel/codeswitch-pairs-lase`. The dataset supports four languages: English (en), Hindi (hi), Telugu (te), and Tamil (ta). Each utterance pair includes metadata such as voice ID, language, text prompt, audio path, and quality scores. The audio is in 16 kHz mono WAV format, approximately 2 seconds per utterance. The dataset also provides statistics like the number of pairs, voices, languages, and quality gate. The data was synthesized using the ElevenLabs Multilingual v2 API, with voice IDs from the public ElevenLabs catalog used for research/evaluation purposes. The text prompts are short generic English phrases translated/transliterated into each target script.
提供机构:
Praxel
搜集汇总
数据集介绍

构建方式
该数据集名为codeswitch-pairs-lase-heldout,是专为评估跨脚本说话人编码器泛化能力而构建的保留测试集。其构建过程依托ElevenLabs Multilingual v2文本转语音API,利用8个公开的ElevenLabs Western多语种声音,对源自通用英语短语的简短文本提示进行跨语言合成。具体而言,将每个英语提示翻译或音译至印地语、泰卢固语和泰米尔语三种印度语系目标脚本,生成跨语对组。每对由同一声音ID在不同脚本下的两个语音波形构成,从而模拟真实语码转换场景中的数据不匹配性。在质量管控上,采用WavLM余弦相似度度量,确保合成音频与对应声音参考片段之间的相似度不低于0.90,以剔除低质样本。最终获得1043个高质量的保留语对,并以manifest.jsonl格式记录每个样本的元数据,包括声音ID、语言标签、文本内容和波形路径。
特点
该数据集的核心特征在于其精心设计的跨脚本语对结构和严格的质量门槛。数据结构简洁而有效,每条记录均包含同一说话人在不同语言脚本下的同步语音,以及WavLM余弦相似度和UTMOS评分等客观质量指标,便于研究者快速筛选高保真样本。由8个不同声音ID提供的语种覆盖英语及相关脚本,确保了说话人身份的多样性。最大亮点是采用固定质量门控策略,要求所有样本与参考音频的余弦相似度达到0.90以上,这一设计不仅保证了合成数据与自然语音的声学一致性,还提供了可靠的评价基准,使该数据集成为评估说话人编码器在跨语言、跨脚本条件下身份保持能力的理想工具。此外,其短时长特性使得推理效率高,适合大规模评估。
使用方法
使用时,研究者可直接从HuggingFace加载数据集,或按manifest.jsonl格式解析本地文件。核心操作在于通过声音ID与语言标签的联合查询,重构跨脚本语对。例如,选取同一voice_id下语言标签为en与hi的两条记录,组成一个用于评估的输入对。典型应用场景为:将语对中的两个语音输入至说话人编码器,提取嵌入向量,计算其相似度,以衡量编码器在不同脚本间保持说话人身份一致性的能力。由于数据集规模较小,适合作为独立验证集,与Praxel/codeswitch-pairs-lase训练集配合使用,检验模型在未见说话人上的泛化性能。推荐进一步结合UTMOS等客观指标对结果进行修正,提升评价准确性。
背景与挑战
背景概述
该数据集由Praxel团队于近期创建,旨在解决跨语言与代码切换场景下的说话人身份保持问题。研究聚焦于印度次大陆的语言多样性,涵盖英语、印地语、泰卢固语和泰米尔语四种语言。核心研究问题在于评估说话人编码器在跨脚本语音对上的泛化能力,这是LASE(语言对抗性说话人编码)方法的关键验证环节。通过使用ElevenLabs的多语言语音合成系统,数据集构建了1043对高质量的跨脚本语音,为少样本说话人编码研究提供了标准化的评测基准。该工作对多语言语音技术的公平性和鲁棒性具有重要推动意义,尤其针对低资源印度语言的语音合成与身份保持任务。
当前挑战
当前领域面临的主要挑战包括:1)跨语言与代码切换场景中,说话人身份特征易被语言信息干扰,导致语音合成时身份一致性难以保证;2)印度语系中多脚本混合的复杂性,使得传统的说话人编码方法在跨脚本匹配时性能显著下降。构建过程中遇到的挑战包括:3)合成语音的自然度与保真度需严格平衡,通过WavLM余弦相似度≥0.90的质量门控确保数据可靠性;4)从公开的多语言语音合成系统中获取多样化说话人样本,同时需遵循服务协议并对语音身份进行脱敏处理,增加了数据收集的合规性难度。
常用场景
经典使用场景
跨脚本说话人编码(Speaker Encoding)是语音领域的前沿课题,旨在解决多语言、多文字系统下说话人身份一致性的难题。Codeswitch-Pairs-LASE-Heldout 数据集专为评估跨脚本说话人编码器的泛化能力而设计,其经典使用场景是基于同一说话人在不同文字脚本(如拉丁字母与天城文)下的语音对,检验编码器能否在语言、文字变化后依然稳健提取说话人身份特征。研究者利用该数据集的1043对合成语音样本,通过计算同一 voice_id 在不同脚本下的嵌入相似度(如余弦相似度),定量评估编码器在跨语言、跨脚本场景下的身份保持能力。这一评测范式成为衡量说话人编码器在语码转换(Code-Switching)和文字混合环境下表现的核心基准。
实际应用
在现实世界的语音交互系统中,语码转换与文字混合现象无处不在,例如印度多语种语音助手、跨国客服对话中用户可能混合使用英语与本地语言。该数据集模拟了这类复杂场景,其实际应用聚焦于评估和优化说话人编码器在跨脚本条件下的身份保持能力,从而提升多语种语音产品中的说话人确认、说话人聚类与个性化语音合成效果。例如,在个性化语音助手部署前,利用该数据集可检测编码器是否在用户切换语言脚本时依然稳定识别其身份,确保使用体验的连贯性。此外,该数据集也适用于训练更鲁棒的零样本说话人适应模型,助力跨语言语音克隆技术在商用场景中的可靠落地。
衍生相关工作
基于 Codeswitch-Pairs-LASE-Heldout 数据集,研究者衍生出多个方向的工作。其配套论文提出了 LASE(Language-Adversarial Speaker Encoding)框架,通过对抗性训练消除语言信息对说话人编码的干扰,实现跨脚本身份信息的高保真提取。后续工作借鉴该数据集的评估范式,开发了面向语码混合场景的说话人嵌入方法,如基于对比学习的多文字语音对训练策略,以及融合音素与字形信息的混合编码器。此外,该数据集被用于检验预训练语音模型(如 WavLM、HuBERT)在跨文字迁移中的身份表征质量,催生了针对印度语言说话的适应微调流程。这些衍生研究共同推动了说话人编码技术向多语言、多文字现实场景的实用化演进。
以上内容由遇见数据集搜集并总结生成



