Interspeech2025-MLC-SLM-Challenge

Hugging Face2025-03-12 更新2025-03-13 收录

下载链接：

https://huggingface.co/datasets/Nexdata/Interspeech2025-MLC-SLM-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含大约11种语言的多语言对话语音数据集，包括英语、法语、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、俄语、泰语和越南语。每个语种包含两个说话者在随机分配的话题上进行自然流畅的对话，使用iPhone等设备在安静的室内环境录制。英语数据集大约有500小时的录音，来自不同地区，如英式、美式、澳式、印式和菲式英语。其他语言的数据集大约各有100小时，总共有大约1500小时的多语言对话语音数据。

This dataset is a multilingual conversational speech dataset covering approximately 11 languages, including English, French, German, Italian, Portuguese, Spanish, Japanese, Korean, Russian, Thai, and Vietnamese. For each language, the dataset contains natural and fluent dialogues between two speakers on randomly assigned topics, recorded in quiet indoor environments using devices such as iPhones. The English subset has approximately 500 hours of recordings sourced from diverse regional varieties, including British, American, Australian, Indian, and Filipino English. The subsets for the other languages each contain around 100 hours of data, resulting in a total of approximately 1,500 hours of multilingual conversational speech data overall.

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

Interspeech2025-MLC-SLM-Challenge数据集的构建，旨在填补多语言对话语音数据在大型语言模型应用中的空白。该数据集通过收集11种语言的两人对话，包括英语、法语、德语等，确保了数据的多样性和现实性。这些对话在安静的环境中使用iPhone等设备录制，内容涉及随机分配的话题，具有自然流畅的特点。整个数据集总计约1500小时，其中英语数据集独占约500小时，覆盖了不同地区的英语口音。

特点

该数据集的特点在于其多语言、真实的对话语音记录，以及丰富的语言和文化多样性。它不仅为多语言自动语音识别提供了高质量的训练材料，还包含了自然的人类交流元素，如停顿、插话、说话人重叠等，这对于提高对话系统的真实性和交互性至关重要。此外，数据集的分任务设计，如无需先验信息的说话人识别和转录，为研究者提供了探索端到端系统的可能性。

使用方法

使用该数据集，研究者可以注册参与Interspeech2025-MLC-SLM-Challenge挑战，注册过程中需提交数据使用协议和填写注册表格。数据集的发布包括训练集、开发集和评估集，每个阶段都有明确的时间节点。参与者可以使用这些数据来开发多语言对话语音识别和说话人识别系统，并通过在线排行榜提交结果，以评估其系统的性能。

背景与挑战

背景概述

Interspeech2025-MLC-SLM-Challenge数据集，旨在推进大型语言模型在多语言对话语音处理任务中的应用。该数据集的创建，源自于对真实世界对话语音数据的需求，特别是在多语言环境中，这对于发展稳健的语言模型至关重要。该数据集由11种语言的对话语音组成，包括英语、法语、德语等，总计约1500小时。该挑战由Interspeech 2025组织，并计划在同年发布。该数据集不仅为研究人员提供了实验的基础，也为多语言对话语音理解与生成领域带来了新的研究方向。

当前挑战

该数据集的挑战主要在于两个方面：一是多语言对话语音识别，要求开发基于大型语言模型的多语言自动语音识别系统；二是对话语音的说话人分割与识别，要求系统不仅能识别谁在说话，还要能准确转录语音为文本。此外，数据集构建过程中面临的挑战包括真实世界对话语音的获取、多语言环境的处理以及数据标注的准确性等。

常用场景

经典使用场景

在自动语音识别与生成领域，Interspeech2025-MLC-SLM-Challenge数据集提供了一个重要资源。该数据集特别适用于构建多语言对话语言模型，其典型应用场景在于对大规模真实世界多语言对话语音数据进行精确的识别与分割，从而实现对多语言对话环境的深入理解与建模。

解决学术问题

该数据集解决了多语言环境下对话语音数据不足的问题，为学术研究提供了关键助力。通过提供包含11种语言的对话语音数据，它有助于推动自动语音识别、语音分割与标注、以及多语言对话系统的技术进步，进而促进多语言AI交互系统的发展。

衍生相关工作

基于该数据集，研究者们可以开展一系列相关研究，如多语言语音识别模型的开发、对话系统的优化、以及多语言语音数据的处理与分析技术。这些研究将进一步推动语音识别与处理技术的发展，为构建智能对话系统提供强有力的支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集