Praxel/codeswitch-pairs-lase
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Praxel/codeswitch-pairs-lase
下载链接
链接失效反馈官方服务:
资源简介:
Codeswitch Pairs LASE训练语料库包含1118个同一声源的跨脚本话语对,涉及8种ElevenLabs多语言声音和4种语言(英语、印地语、泰卢固语、泰米尔语)。每个数据条目包含声音ID、语言、文本提示、音频路径和质量评估(如余弦相似度和UTMOS评分)等信息。音频为16 kHz单声道WAV格式,时长约2秒。数据集的质量标准为WavLM-cosine ≥ 0.90。数据是通过ElevenLabs Multilingual v2 API合成的,用于研究目的。
The Codeswitch Pairs LASE training corpus consists of 1118 same-voice cross-script utterance pairs, involving 8 ElevenLabs Multilingual voices and 4 languages (English, Hindi, Telugu, Tamil). Each entry includes voice ID, language, text prompt, audio path, and quality metrics (e.g., cosine similarity and UTMOS score). The audio is 16 kHz mono WAV format, approximately 2 seconds in duration. The datasets quality gate is WavLM-cosine ≥ 0.90. The data was synthesized using the ElevenLabs Multilingual v2 API for research purposes.
提供机构:
Praxel
搜集汇总
数据集介绍

构建方式
codeswitch-pairs-lase数据集专为跨语言说话人编码任务而设计,旨在通过语音-文本对训练说话人编码器以保留跨脚本身份。该数据集通过ElevenLabs Multilingual v2 API合成1118个同声跨脚本语音对,涵盖8种公共ElevenLabs多语言声音,分别录制英语、印地语、泰卢固语和泰米尔语四种语言的短文本提示。每个音频样本为16 kHz单声道WAV格式,时长约2秒,配有包含语音标识、语言、文本及质量评估指标的元数据。质量门控要求WavLM余弦相似度不低于0.90,以确保合成语音与参考片段的一致性。
特点
该数据集的核心特点在于其精心构建的跨语言配对结构,通过固定语音标识实现同一说话人在不同语言脚本间的身份绑定,从而支持语言对抗训练策略。数据集的1118个样本中每个语音对均经质量筛选,确保合成音频的高保真度和代表性。四种语言的混合为模型提供了丰富的跨脚本语境,而公共声音的使用则便于研究可重复性。此外,数据集的设计允许在评估阶段通过语音标识重构配对,展现出高度的灵活性和可扩展性。
使用方法
用户可利用该数据集训练诸如LASE r1的说话人编码器,通过处理跨语言语音对来学习语言无关的说话人表征。具体使用时,加载manifest.jsonl文件中的元数据,依据语音标识配对音频样本,并结合对应文本进行监督学习。数据集的音频可直接输入声学模型,其质量指标(如余弦相似度和UTMOS分数)可作为训练验证。适用于音频分类、文本转语音的前端特征提取,以及跨语言说话人识别等场景,开发者需遵守CC-BY-4.0许可协议。
背景与挑战
背景概述
在跨语言语音处理领域,说话人身份在语码转换场景下的保持始终是一项关键挑战。为应对这一需求,Codeswitch Pairs LASE数据集于近年由研究团队基于ElevenLabs Multilingual v2 API合成构建,核心研究问题聚焦于开发语言对抗性说话人编码(LASE)方法,以在印度语系(英语、印地语、泰卢固语、泰米尔语)的跨脚本语音对中实现身份特征的鲁棒提取。该数据集包含1118对相同说话人、不同语言脚本的合成语音对,由8个公开ElevenLabs多语种说话人声音生成,并经过严格的WavLM余弦相似度≥0.90的质量筛选,为跨语言说话人编码研究提供了标准化、高质量的基准资源,对推动语码转换场景下的说话人身份保持技术具有重要参考价值。
当前挑战
该数据集所解决的领域问题在于:语码转换场景中,同一说话人在不同语言间的语音特征常因语种差异而发生偏移,导致传统说话人编码方法难以保持跨脚本身份一致性。具体挑战包括:1)如何设计语言对抗性机制以消除语言信息对说话人特征提取的干扰,使编码器对语言变化具有鲁棒性;2)合成语音与自然语音之间的域差异可能影响模型在真实场景中的泛化能力;3)印度语系中存在书写体系与音韵结构的显著差异(如泰卢固语与泰米尔语的音节结构不同),增加了跨脚本对齐的难度;4)数据规模仅1118对,对训练高泛化能力的大模型构成约束,需在有限样本下有效学习跨语言不变性表征。
常用场景
经典使用场景
在跨语言与跨文字场景的说话人识别研究中,codeswitch-pairs-lase数据集被广泛用于训练说话人编码器,特别是在处理印地语、泰卢固语、泰米尔语等印度语言的拉丁转写与天城体等多种文字体系之间的语音匹配任务。该数据集通过合成同一说话人在不同语言和文字下的语音对,为模型提供了精确的跨脚本正样本对,从而支持说话人身份在语言切换环境下的稳健表征学习。其典型使用方式是将同一voice_id下的不同语言语句作为正样本对,借助对比学习或度量学习框架训练说话人嵌入网络,提升模型对语种变化的不变性与对身份特征的敏感性。
衍生相关工作
基于codeswitch-pairs-lase数据集的学术衍生工作主要围绕LASE(Language-Adversarial Speaker Encoding)框架展开,该框架首次提出了语言对抗性说话人编码方法,通过对抗训练剥离说话人嵌入中的语言特定信息,从而在跨语言和跨文字条件下实现身份信息的纯净表征。后续研究进一步扩展了该框架至更多印度语言种类,并比较了不同说话人编码架构(如WavLM、ECAPA-TDNN等)在跨脚本任务上的表现。此外,该数据集还激发了关于合成语音质量对说话人编码影响的讨论,催生了基于对比学习的跨语言正样本筛选策略以及融合文本和声学特征的多模态说话人表征方法,推动了低资源语言说话人识别领域的发展。
数据集最近研究
最新研究方向
该数据集聚焦于跨语言与跨文字场景下的说话人身份保持这一前沿课题,尤其针对印度语系中英语、印地语、泰卢固语与泰米尔语的多语混合语音。结合语音合成与说话人编码技术的交叉融合趋势,研究者利用ElevenLabs多语言合成引擎构建了1118个同声说话人跨脚本话语对,通过WavLM余弦相似度筛选确保音质一致性,为语言对抗性说话人编码(LASE)模型提供训练支撑。这一工作不仅回应了多语种语音交互中身份信息因文字切换而丢失的痛点,更推动了说话人嵌入在代码混合场景下的鲁棒性研究,对构建更自然的跨语言语音助手与包容性通信系统具有范式意义。
以上内容由遇见数据集搜集并总结生成



