Praxel/codeswitch-pairs-lase-indian
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Praxel/codeswitch-pairs-lase-indian
下载链接
链接失效反馈官方服务:
资源简介:
Codeswitch Pairs LASE — Indian-accent held-out corpus数据集包含1369个跨脚本的语音对,由8个ElevenLabs印度-英语多语言语音合成。该数据集用于研究口音条件性发现,如现成的编码器会将印度口音的语音紧密聚类,而不考虑脚本,而西方语音则显示出较大的脚本条件性差距。数据集中的每条记录都是一个合成的语音片段及其元数据,语音对在评估时通过voice_id进行重建。支持的语言包括英语(en)、印地语(hi)、泰卢固语(te)和泰米尔语(ta)。音频格式为16 kHz单声道WAV,每个语音片段约2秒。数据集还提供了质量门限,要求WavLM-cosine ≥ 0.90与语音的参考片段相比。数据集的合成使用了ElevenLabs Multilingual v2 API,并遵循其研究/评估用途的使用条款。
The Codeswitch Pairs LASE — Indian-accent held-out corpus contains 1369 held-out cross-script utterance pairs from 8 ElevenLabs Indian-English Multilingual voices. It surfaces the accent-conditional finding: off-the-shelf encoders cluster Indian-accent voices closely regardless of script, while Western voices show large script-conditional gaps. Each row is one synthesized utterance with metadata; pairs are reconstructed at evaluation time by joining on voice_id. Supported languages include English (en), Hindi (hi), Telugu (te), and Tamil (ta). Audio is 16 kHz mono WAV, ~2 s/utterance. The dataset includes a quality gate: WavLM-cosine ≥ 0.90 vs the voices reference clip. The dataset was synthesized using the ElevenLabs Multilingual v2 API and is used under their TOS for research/evaluation purposes.
提供机构:
Praxel
搜集汇总
数据集介绍

构建方式
该数据集名为codeswitch-pairs-lase-indian,专注于印度口音的语码转换音频对。它基于ElevenLabs多语言v2 API合成,从8个公开的印度英语多语言语音中生成1369个跨脚本话语对。每个话语对由同一语音ID(voice_id)对应的不同脚本(如英文、印地语、泰卢固语、泰米尔语)的音频组成,用于评估语音编码器在跨脚本条件下的身份保持能力。数据质量通过WavLM余弦相似度(≥0.90)与UTMOS评分(平均4.6)进行门控,确保合成语音与参考语音的高保真度。音频格式为16 kHz单声道WAV,每段约2秒。
特点
该数据集的核心特点在于其精心设计的跨脚本配对结构,揭示了印度口音在语音编码中的独特特性:现成的语音编码器在聚类印度口音时,无论脚本如何变化,均表现出高度一致性;而西方语音则呈现显著的脚本依赖性差异。数据覆盖四种语言脚本(英文、印地语、泰卢固语、泰米尔语),并由8个不同语音ID提供多样化发声。每条记录包含语音ID、语言标签、文本提示、音频路径及质量指标,便于进行交叉语言语音识别、说话人编码和文本转语音等任务的评估。
使用方法
数据集以manifest.jsonl格式存储,每行对应一条元数据记录。使用时,通过voice_id字段进行自连接即可重构话语对,即相同语音ID下不同语言的音频构成跨脚本对。数据适用于音频分类任务中的说话人编码评估、跨语言身份保持研究,以及文本转语音模型的合成质量分析。用户可加载16 kHz单声道WAV文件进行特征提取,结合质量分数(cosine和utmos)筛选高保真样本。该数据集在CC-BY-4.0许可下开放,适用于学术研究和评估目的。
背景与挑战
背景概述
在跨语言说话人表征学习领域,语码切换现象对说话人身份保持提出了独特挑战,尤其是当同一说话人的语音分属不同文字系统(如拉丁字母与天城文)时。该数据集由相关研究团队于近期创建,依托ElevenLabs多语种语音合成API,从8个印度口音英语多语种说话人中构建了1369个跨文字语音对,旨在探究说话人编码器在不同文字条件下对印度口音语音的聚类表现。其核心研究问题在于揭示预训练编码器在处理印度口音时,无论文字系统如何变化均能保持高度一致性,而这一特性在西语口音说话人中并不显著。该数据集为跨语言说话人验证、语码混合语音合成以及多语种说话人身份保持等领域提供了重要的基准资源。
当前挑战
该数据集所应对的领域挑战集中于两个方面:其一,在语码切换与多文字混合场景下,现有说话人编码器普遍存在跨文字身份丢失问题,即同一说话人使用不同文字系统时,编码器输出的表征会产生显著偏移,而印度口音的特异性使得这一挑战尤为突出;其二,在数据集构建过程中,须确保合成语音的自然度与真实说话人特征的一致性,并通过WavLM余弦相似度阈值(≥0.90)进行质量筛选,以剔除声学伪影。此外,文本提示需精准翻译并转写为目标文字系统,同时避免引入不必要的韵律偏差,这对数据生成管道提出了严格的控制要求。
常用场景
经典使用场景
在语音与语言处理的交叉领域中,跨语言说话人身份识别与语种对抗性编码的研究日益受到重视。该数据集专为评估和训练跨脚本语音表征模型而设计,其经典使用场景聚焦于验证说话人编码器在不同书写体系(如拉丁字母、天城文、泰卢固文、泰米尔文)下的身份保持能力。研究者可通过该数据集构建跨语言说话人验证任务,即判断来自同一说话人但使用不同语言或脚本的两段语音是否属于同一身份,从而评测编码器对语言变化的鲁棒性。该场景对于推动多语种、多脚本环境下的生物特征识别技术具有基础性意义。
实际应用
在实际应用层面,该数据集所支持的技术可广泛赋能多语种语音助手、跨境身份认证系统和多语言社交媒体平台的声纹识别模块。例如,在印度这样的多语言国家中,用户可能会在印地语和英语之间进行语码转换,一个鲁棒的跨脚本说话人编码器能够确保无论用户使用何种语言,系统都能准确识别其身份。此外,该数据集还可用于优化文本转语音系统,使其在生成不同语言的语音时保持一致的音色和风格,从而提升多语种合成语音的自然度和可信度,服务于全球化的语音交互产品。
衍生相关工作
基于该数据集的独特设计,一系列衍生工作已然展开。最直接的经典工作便是其伴生论文所提出的LASE(Language-Adversarial Speaker Encoding)方法,该方法通过语种对抗训练策略,强制编码器在特征空间中抹除语言相关的变异,从而在跨脚本条件下保持说话人身份的稳定性。此外,该数据集还被用于评估和改进多种主流说话人编码器(如WavLM、ECAPA-TDNN)在跨语言场景下的表现,催生了诸如脚本感知的说话人特征融合、基于对比学习的跨语言身份表征等前沿研究。这些工作共同推动了语音社区对多语种、多脚本环境下说话人表征理论的深入理解。
以上内容由遇见数据集搜集并总结生成



