MLC-SLM
收藏arXiv2025-09-17 更新2025-11-21 收录
下载链接:
https://hf-mirror.com/datasets/bsmu/MLC-SLM-Eval
下载链接
链接失效反馈官方服务:
资源简介:
MLC-SLM数据集是一个包含约1604小时多语言对话语音数据的真实世界数据集,包含11种语言,包括英语、法语、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、俄语、泰语和越南语。数据集分为训练集、开发集、评估集1和评估集2,每个集合包含大约1507小时、32小时、32小时和32小时的语音数据。数据集旨在用于构建多语言对话语音语言模型,解决语言多样性、说话者变化和上下文挑战。数据集的创建过程包括录制、标注、分割和转录等步骤。该数据集的应用领域包括语音识别、语音分割和说话人识别,旨在解决多语言对话中的语言识别、说话人识别和语音识别等问题。
The MLC-SLM dataset is a real-world multilingual conversational speech dataset containing approximately 1,604 hours of data across 11 languages, namely English, French, German, Italian, Portuguese, Spanish, Japanese, Korean, Russian, Thai, and Vietnamese. The dataset is split into four subsets: training set, development set, evaluation set 1, and evaluation set 2, which hold approximately 1,507 hours, 32 hours, 32 hours, and 32 hours of speech data respectively. This dataset is intended for constructing multilingual conversational speech language models, with the goal of addressing challenges such as language diversity, speaker variability, and contextual complexities. The dataset creation process includes steps like recording, annotation, segmentation, and transcription. Its application domains cover speech recognition, speech segmentation, and speaker recognition, aiming to solve core problems including language recognition, speaker recognition, and speech recognition in multilingual conversational scenarios.
提供机构:
西北工业大学
创建时间:
2025-09-17
搜集汇总
数据集介绍

构建方式
在语音与语言技术融合发展的背景下,MLC-SLM数据集通过精心设计的采集流程构建而成。该数据集总计约1604小时,涵盖英语、法语、德语等11种语言,其中英语部分还细分了美国、澳大利亚、英国等五种地域口音。所有语音数据均在安静室内环境中使用iPhone等移动设备录制,采样率为16kHz,确保了音频质量的一致性。每条录音包含两名说话者围绕随机分配主题进行的约20分钟多轮对话,话题涉及名人、教育、旅行等日常生活领域,并提供了说话者年龄与性别的多样性分布。数据划分包括1507小时训练集、32小时开发集以及两个各32小时的评估集,其中训练集与开发集附带了精确的分段、说话人标签和转写文本,为模型构建提供了可靠基础。
特点
面向多语言对话语音处理的现实需求,MLC-SLM数据集展现出显著的技术特征。其多语言覆盖不仅包含主流欧洲语言,还兼顾日语、韩语等东亚语言及泰语、越南语等东南亚语言,英语口音变体的纳入更增强了语言多样性。对话内容具有高度自然性,包含真实对话中的停顿、打断等复杂现象,且说话者年龄与性别分布均衡。数据集特别设计了双任务评估体系:任务一提供预分割的语音片段与说话人标签,任务二则要求直接处理原始连续对话,这种结构既能支持传统语音识别研究,又可推动端到端对话系统的探索。所有语音数据均配有精细的元数据标注,包括对话主题、录音设备信息等,为多维度研究提供了可能。
使用方法
为促进多语言对话语音大模型的研究,MLC-SLM数据集提供了明确的使用框架。研究人员可通过官方发布的Hugging Face仓库获取完整数据,其中训练集与开发集包含语音、分段、说话人标签及转写文本,而两个评估集则根据任务需求提供不同级别的标注信息。在模型构建方面,数据集支持基于语音编码器-投影层-大语言解码器的标准架构,可采用分阶段训练策略优化各组件。针对多语言场景,建议结合语言特定提示或混合专家LoRA等方法增强模型适应性。数据增强方面允许使用外部数据集及速度扰动、噪声添加等技术,但严禁使用评估集进行模型训练。最终评估采用混合错误率等指标,确保结果的可比性与科学性。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域展现出卓越能力,研究界开始探索将其扩展至语音模态,以构建更自然的交互系统。MLC-SLM数据集由西北工业大学音频、语音与语言处理组联合多所机构于2025年Interspeech会议推出,旨在解决多语言对话场景下语音大语言模型开发的数据稀缺问题。该数据集涵盖英语、法语等11种语言的15种方言变体,总计约1604小时真实对话录音,聚焦于多语言对话语音识别与说话人日志分析两大核心任务,为跨语言语音智能研究提供了关键基础设施。
当前挑战
在领域问题层面,多语言对话语音识别需克服方言差异、说话人重叠、自然对话中断等复杂声学特征带来的识别精度挑战,同时需解决低资源语言数据不足导致的模型偏差问题。构建过程中,数据采集面临多语言说话人年龄性别分布均衡性控制、跨地域录音设备一致性维护、对话话题多样性设计等工程难题,且标注工作需平衡语音分割时间精度与文本转写准确性之间的张力,这些因素共同构成了数据集构建的核心挑战。
常用场景
实际应用
在实际应用层面,MLC-SLM数据集支撑的技术已广泛应用于智能客服、跨国会议系统、教育辅助工具等场景。基于该数据集训练的模型能够实时处理多语言混合对话,准确识别不同说话人并生成对应文本,在跨境商务谈判、多语言教学平台中展现出色性能。其包含的多种口音数据特别适用于开发适应地域方言的语音交互系统,为全球化企业的本地化服务提供技术保障。
衍生相关工作
该数据集催生了系列创新性研究,包括TENP团队提出的双编码器架构、Sixteen-years团队的三阶段训练策略等。这些工作探索了混合专家LoRA、语言自适应投影等新型模型结构,推动了语音大语言模型在参数效率与多语言适应性方面的突破。在说话人日志任务中,研究者开发了从级联管道到端到端的多种解决方案,如DKU团队的半集成方法和ST-ShinozakiLab的端到端统一模型,为多模态对话系统的发展开辟了新方向。
以上内容由遇见数据集搜集并总结生成



