five

Malaysian-UltraChat-Speech-Multiturn-Instructions

收藏
Hugging Face2025-06-03 更新2025-06-04 收录
下载链接:
https://huggingface.co/datasets/mesolitica/Malaysian-UltraChat-Speech-Multiturn-Instructions
下载链接
链接失效反馈
官方服务:
资源简介:
Malaysian-UltraChat-Speech-Multiturn-Instructions数据集包含了经过筛选的马来西亚用户简短问题,这些问题被转化为语音提示,并使用mesolitica/Malaysian-Dia-1.6B模型生成合成语音。每个会话至少包含两个音频,并且数据集采用了Qwen/Qwen2-Audio-7B-Instruct的聊天模板。数据集分为训练集,包含马来语和英语两种语言。

The Malaysian-UltraChat-Speech-Multiturn-Instructions dataset contains filtered short queries from Malaysian users, which are converted into speech prompts and synthesized using the mesolitica/Malaysian-Dia-1.6B model. Each conversation contains at least two audio clips, and the dataset adopts the chat template of Qwen/Qwen2-Audio-7B-Instruct. The dataset is split into training sets, which cover both Malay and English languages.
提供机构:
Mesolitica
创建时间:
2025-05-29
搜集汇总
数据集介绍
main_image_url
构建方式
在语音交互技术蓬勃发展的背景下,该数据集通过精心筛选mesolitica/malaysian-ultrachat中的马来西亚语短问题,确保其适合转换为语音提示。利用mesolitica/Malaysian-Dia-1.6B模型生成合成语音,并采用强制对齐技术验证发音准确性,保证语音与文本的高度匹配。每个对话至少包含两段音频,严格遵循Qwen/Qwen2-Audio-7B-Instruct的对话模板构建多轮交互结构。
特点
该数据集融合马来西亚语和英语的双语特性,涵盖97,692条训练样本和95,129条语音助手样本,呈现多模态数据特征。每条数据包含对话文本、语音音频及文件名,支持语音识别与生成任务的联合训练。其多轮指令设计模拟真实交互场景,为跨语言语音模型研究提供丰富资源,数据规模达948MB,兼具多样性与实用性。
使用方法
研究人员可通过HuggingFace命令行工具下载包含ZIP格式的数据文件,使用配套Python脚本解压后即可访问训练集和语音助手分片。数据集直接适配主流音频语言模型框架,支持端到端的多轮对话语音任务训练。用户可依据对话字段重建交互序列,结合语音文件实现语音转文本、文本生成语音或多模态对话系统的开发与评估。
背景与挑战
背景概述
随着多模态人工智能技术的迅猛发展,语音与文本交互数据集在推动智能语音助手和对话系统研究方面展现出重要价值。Malaysian-UltraChat-Speech-Multiturn-Instructions数据集由Mesolitica研究团队构建,专注于马来西亚语与英语的多轮语音指令对话。该数据集基于UltraChat的马来西亚语子集进行筛选,利用先进的语音合成模型生成高质量语音数据,并采用强制对齐技术确保发音准确性,旨在支持多语言语音助手和音频语言模型的开发,为低资源语言的语音处理研究提供了关键资源。
当前挑战
构建多轮语音指令数据集面临双重挑战:在领域问题层面,如何准确捕捉马来西亚语特有的语音韵律和对话结构,以解决低资源语言语音识别与生成中的语义连贯性问题;在技术实现层面,需克服语音合成中的发音准确性验证难题,以及多轮对话数据对齐的复杂性,确保语音与文本间的时间同步和内容一致性。
常用场景
经典使用场景
在多模态语音交互研究中,Malaysian-UltraChat-Speech-Multiturn-Instructions数据集为马来语和英语混合的对话场景提供了关键支持。该数据集通过合成语音与文本转录的配对,典型应用于训练多轮对话系统,特别是在跨语言语音识别和生成任务中。研究者利用其多轮对话结构,模拟真实语音助手交互过程,优化模型对连续语音指令的理解与响应能力,显著提升了语音交互的自然度和连贯性。
衍生相关工作
基于该数据集衍生的经典工作主要集中在多模态大语言模型的适配研究,例如对Qwen2-Audio-7B-Instruct等模型的马来语微调实践。相关研究探索了合成语音数据在低资源语言模型训练中的有效性,催生了跨语言语音对齐技术的新方法。这些工作进一步拓展至多语种语音助手架构优化,为东南亚语言技术生态的发展提供了重要参考范例。
数据集最近研究
最新研究方向
在多模态语音对话系统领域,马来西亚语-超长对话-语音多轮指令数据集为低资源语言的语音助手开发提供了关键支持。该数据集结合了马来西亚语和英语的对话内容,通过合成语音生成和强制对齐技术确保发音准确性,推动了多语言语音模型的训练优化。前沿研究聚焦于提升语音识别在多轮交互中的鲁棒性,以及探索跨语言语音指令的泛化能力,相关热点包括利用类似Qwen2-Audio模型架构进行多任务学习。这一进展对东南亚地区的数字包容性技术具有深远意义,为本地化智能助手的发展奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作