five

Interspeech2025-MLC-SLM-Challenge|语音识别数据集|多语言处理数据集

收藏
huggingface2025-03-12 更新2025-03-13 收录
语音识别
多语言处理
下载链接:
https://huggingface.co/datasets/Nexdata/Interspeech2025-MLC-SLM-Challenge
下载链接
链接失效反馈
资源简介:
该数据集是一个包含大约11种语言的多语言对话语音数据集,包括英语、法语、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、俄语、泰语和越南语。每个语种包含两个说话者在随机分配的话题上进行自然流畅的对话,使用iPhone等设备在安静的室内环境录制。英语数据集大约有500小时的录音,来自不同地区,如英式、美式、澳式、印式和菲式英语。其他语言的数据集大约各有100小时,总共有大约1500小时的多语言对话语音数据。
创建时间:
2025-03-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
Interspeech2025-MLC-SLM-Challenge数据集的构建,旨在填补多语言对话语音数据在大型语言模型应用中的空白。该数据集通过收集11种语言的两人对话,包括英语、法语、德语等,确保了数据的多样性和现实性。这些对话在安静的环境中使用iPhone等设备录制,内容涉及随机分配的话题,具有自然流畅的特点。整个数据集总计约1500小时,其中英语数据集独占约500小时,覆盖了不同地区的英语口音。
特点
该数据集的特点在于其多语言、真实的对话语音记录,以及丰富的语言和文化多样性。它不仅为多语言自动语音识别提供了高质量的训练材料,还包含了自然的人类交流元素,如停顿、插话、说话人重叠等,这对于提高对话系统的真实性和交互性至关重要。此外,数据集的分任务设计,如无需先验信息的说话人识别和转录,为研究者提供了探索端到端系统的可能性。
使用方法
使用该数据集,研究者可以注册参与Interspeech2025-MLC-SLM-Challenge挑战,注册过程中需提交数据使用协议和填写注册表格。数据集的发布包括训练集、开发集和评估集,每个阶段都有明确的时间节点。参与者可以使用这些数据来开发多语言对话语音识别和说话人识别系统,并通过在线排行榜提交结果,以评估其系统的性能。
背景与挑战
背景概述
Interspeech2025-MLC-SLM-Challenge数据集,旨在推进大型语言模型在多语言对话语音处理任务中的应用。该数据集的创建,源自于对真实世界对话语音数据的需求,特别是在多语言环境中,这对于发展稳健的语言模型至关重要。该数据集由11种语言的对话语音组成,包括英语、法语、德语等,总计约1500小时。该挑战由Interspeech 2025组织,并计划在同年发布。该数据集不仅为研究人员提供了实验的基础,也为多语言对话语音理解与生成领域带来了新的研究方向。
当前挑战
该数据集的挑战主要在于两个方面:一是多语言对话语音识别,要求开发基于大型语言模型的多语言自动语音识别系统;二是对话语音的说话人分割与识别,要求系统不仅能识别谁在说话,还要能准确转录语音为文本。此外,数据集构建过程中面临的挑战包括真实世界对话语音的获取、多语言环境的处理以及数据标注的准确性等。
常用场景
经典使用场景
在自动语音识别与生成领域,Interspeech2025-MLC-SLM-Challenge数据集提供了一个重要资源。该数据集特别适用于构建多语言对话语言模型,其典型应用场景在于对大规模真实世界多语言对话语音数据进行精确的识别与分割,从而实现对多语言对话环境的深入理解与建模。
解决学术问题
该数据集解决了多语言环境下对话语音数据不足的问题,为学术研究提供了关键助力。通过提供包含11种语言的对话语音数据,它有助于推动自动语音识别、语音分割与标注、以及多语言对话系统的技术进步,进而促进多语言AI交互系统的发展。
衍生相关工作
基于该数据集,研究者们可以开展一系列相关研究,如多语言语音识别模型的开发、对话系统的优化、以及多语言语音数据的处理与分析技术。这些研究将进一步推动语音识别与处理技术的发展,为构建智能对话系统提供强有力的支撑。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录