five

CS-FLEURS

收藏
arXiv2025-08-21 更新2025-08-23 收录
下载链接:
https:// n/sanghyang00/unicom
下载链接
链接失效反馈
官方服务:
资源简介:
CS-FLEURS是一个包含253种语言对的代码切换语音数据集,旨在用于自动语音识别(ASR)和语音到文本翻译(S2TT)。该数据集通过UniCoM生成,使用SWORDS算法生成代码切换语音。CS-FLEURS包含了大量的代码切换样本,并保留了说话人的身份,使其更接近现实生活中的代码切换情况。

CS-FLEURS is a code-switching speech dataset containing 253 language pairs, intended for automatic speech recognition (ASR) and speech-to-text translation (S2TT). It is generated via the UniCoM framework, with the SWORDS algorithm employed to produce code-switching speech samples. CS-FLEURS includes a substantial number of code-switching instances while retaining speaker identities, making it more faithful to real-life code-switching scenarios.
提供机构:
韩国延世大学电气与电子工程系
创建时间:
2025-08-21
搜集汇总
数据集介绍
构建方式
CS-FLEURS数据集通过UniCoM流水线构建,采用创新的SWORDS算法实现语码转换语音生成。该流程首先对FLEURS-R基线数据进行预处理,包括带通滤波和幅度归一化以消除噪声和振幅不一致性;随后通过词级替代策略,基于大型语言模型生成跨语言同义词对映射,并利用强制对齐技术分割语音片段;最后通过风格统一模块使用kNN-VC声码器保持说话人身份一致性,确保生成样本的自然度和连贯性。
使用方法
CS-FLEURS专为自动语音识别(ASR)和语音转文本翻译(S2TT)任务设计,可直接用于训练跨语言语码转换模型。研究人员可基于其元数据中的语言类型和混合指标分析语言学特征,或通过调整词性替换超参数生成定制化语码转换样本。该数据集还可作为数据增强工具,与现有语码转换语料库结合使用,以提升模型在真实多语言场景中的泛化能力。
背景与挑战
背景概述
CS-FLEURS是由延世大学电子电气工程系团队于2025年提出的多语言语码转换语音数据集,旨在解决语音技术领域对混合语言处理能力不足的核心问题。该数据集基于FLEURS-R语音语料库构建,涵盖253种语言对和超过70条n向平行句子,支持自动语音识别和语音到文本翻译任务。其创新性在于通过UniCoM流水线生成高质量语码转换样本,显著提升了多语言语音技术的包容性与实用性,为跨语言语音研究提供了重要基础设施。
当前挑战
语码转换语音技术面临双重挑战:一是领域问题层面,传统语音识别系统难以处理句内语言混合导致的语义连贯性与语法结构冲突;二是构建过程层面,需克服多语言语音数据稀缺、说话人身份一致性维护,以及跨语言音素与韵律特征对齐等难题。CS-FLEURS通过SWORDS算法和风格统一技术应对这些挑战,但仍需解决非拉丁语系语言的语音转换质量与规模扩展问题。
常用场景
经典使用场景
在多语言语音技术研究中,CS-FLEURS数据集被广泛应用于语码转换自动语音识别(CS-ASR)系统的训练与评估。该数据集通过UniCoM管道生成高质量的语码转换样本,覆盖253种语言对,为研究者提供了丰富的跨语言语音混合数据。其经典使用场景包括训练端到端语音识别模型,以处理真实对话中常见的语言交替现象,显著提升了模型在混合语言环境下的识别准确率与鲁棒性。
解决学术问题
CS-FLEURS有效解决了语码转换研究中的数据稀缺问题,尤其针对句内语码转换(intra-sentential CS)这一复杂现象。传统研究因缺乏大规模、高质量的多语言混合语音数据,难以建模语言交替的语法结构与语义一致性。该数据集通过SWORDS算法实现词汇级替换并保留语言特性,支持跨语言语音合成与识别任务,推动了语码转换语音技术的理论发展与模型创新。
实际应用
在实际应用中,CS-FLEURS为多语言语音助手、跨语言通信系统及教育技术平台提供了关键数据支持。例如,在全球化企业的多语言客服系统中,该数据集训练的模型能够准确识别混合英语与西班牙语的用户查询;在语言学习软件中,它助力开发更自然的语码转换语音合成功能,模拟真实双语交流环境,提升用户体验与系统包容性。
数据集最近研究
最新研究方向
在语码转换语音技术领域,CS-FLEURS数据集的推出标志着多语言语音处理研究的重要突破。该数据集通过UniCoM框架和SWORDS算法实现了253种语言对的句内语码转换样本生成,有效解决了传统语料库因语言对稀缺和说话人一致性不足导致的训练数据匮乏问题。当前研究聚焦于提升跨语言语音识别(CS-ASR)和语音到文本翻译(CS-S2TT)的模型泛化能力,尤其在低资源语言场景中展现显著价值。其引入的罗马化字符错误率(RER)和说话人身份一致性(SIS)等评估指标,为量化语码转换语音的自然度与智能度提供了新范式。此外,该数据集支撑了数据增强策略的探索,通过合成数据与真实语料的混合训练显著提升模型在嘈杂环境下的鲁棒性,推动了多语言语音技术向更具包容性和实用性的方向发展。
相关研究论文
  • 1
    UniCoM: A Universal Code-Switching Speech Generator韩国延世大学电气与电子工程系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作