LLaSO
收藏arXiv2025-08-21 更新2025-08-23 收录
下载链接:
http://www.llaso.org
下载链接
链接失效反馈官方服务:
资源简介:
LLaSO是一个全面的、模块化的基准数据集,由三个紧密集成的组件组成:LLaSO-Align、LLaSO-Instruct和LLaSO-Eval。LLaSO-Align是一个由12M实例组成的语音-文本对齐语料库,用于通过语音识别技术将语音与语义空间对齐。LLaSO-Instruct是一个包含13.5M实例的多任务指令微调数据集,涵盖语言、语义和副语言领域,支持三种不同的模态配置。LLaSO-Eval是一个包含15,044个分层样本的可重现基准,用于全面评估模型的指令遵循能力。LLaSO旨在建立一个基础的开放标准,以统一研究工作并加速大型语音语言模型(LSLMs)的社区驱动进步。
LLaSO is a comprehensive, modular benchmark dataset comprising three tightly integrated components: LLaSO-Align, LLaSO-Instruct, and LLaSO-Eval. LLaSO-Align is a speech-text alignment corpus with 12M instances, which aligns speech to the semantic space through speech recognition technologies. LLaSO-Instruct is a multi-task instruction tuning dataset containing 13.5M instances, covering linguistic, semantic and paralinguistic domains, supporting three distinct modality configurations. LLaSO-Eval is a reproducible benchmark with 15,044 stratified samples for comprehensive evaluation of models' instruction-following capabilities. LLaSO aims to establish a foundational open standard to unify research efforts and accelerate community-driven progress of large speech-language models (LSLMs).
提供机构:
宁波数字孪生与数字衍生技术研究院、逻辑智能技术、北京邮电大学、厦门大学
创建时间:
2025-08-21
搜集汇总
数据集介绍
构建方式
在语音-语言模型研究领域,数据碎片化与透明度缺失长期制约着可复现性进展。LLaSO数据集的构建采用模块化设计理念,通过整合多源异构语音文本数据,系统性地构建了三大核心组件:LLaSO-Align语料库汇集了来自会话语音、朗读叙事、有声读物及口音语音等12M语音-文本对齐实例,采用自动语音识别任务实现跨模态语义空间对齐;LLaSO-Instruct指令数据集涵盖20类语言学、语义学及副语言学任务,通过人工设计的多样化指令模板与语音合成技术,支持纯音频、文本指令+音频输入、音频指令+文本输入三种模态组合;LLaSO-Eval评估基准则通过分层抽样策略从训练语料中分离出15,044个样本,确保评估体系与训练数据的连贯性与独立性。
特点
该数据集的核心特征体现在多维度的创新性架构设计。其模态覆盖范围突破了传统语音数据集单一输入模式的局限,首次实现了音频与文本在指令和输入角色上的灵活互换,显著增强了模型在真实场景中的适应性。任务体系设计采用平衡加权策略,大幅提升副语言学任务占比至40%,有效弥补了现有资源在韵律、情感等超语言信息表征方面的不足。数据构成融合了71%真实录音与29%合成语音,通过声学风格混合技术引入多样化的说话人特征,确保了音素多样性。此外,指令设计采用标准化、情境化、风格变异与细粒度任务四类提示模板,既保障了任务执行的规范性,又促进了模型组合泛化能力的提升。
使用方法
该数据集支持端到端的语音-语言模型训练与评估 pipeline。研究者可首先利用LLaSO-Align进行模态对齐预训练,通过冻结语音编码器与大语言模型参数、仅训练投影层的方式建立跨模态语义映射。随后采用LLaSO-Instruct进行多任务指令微调,通过解冻语言模型参数使模型适应多样化任务指令与模态配置。评估阶段需使用LLaSO-Eval基准进行全面测试,其分层抽样设计确保了与训练集的任务分布一致性,支持在语言学转录准确度、语义推理质量及副语言学特征识别等多维度进行量化评估。对于纯音频模态的测试,需特别注意模型在无文本辅助条件下的指令理解与执行能力分析。
背景与挑战
背景概述
LLaSO数据集由宁波数字孪生研究所智能空间与数字衍生重点实验室联合逻辑智能技术、北京邮电大学与厦门大学的研究团队于2025年创建,旨在解决大规模语音-语言模型(LSLM)领域因架构碎片化和缺乏透明度导致的复现性与系统性对比难题。该数据集作为首个全开放、端到端的语音-语言建模框架,包含1250万条语音-文本对齐语料(LLaSO-Align)、1350万条多任务指令调优数据(LLaSO-Instruct)及1.5万条分层评估样本(LLaSO-Eval),覆盖语音识别、语义推理及副语言学等20类任务,支持纯音频、文本指令+音频输入、音频指令+文本输入三种模态配置。其开源性为LSLM研究提供了标准化基础,显著推动了社区驱动的透明化研究进程。
当前挑战
LLaSO针对语音-语言模型领域的两大核心挑战:一是领域问题的复杂性,需同时处理语音识别、语义理解及副语言学(如情感、口音识别)等多模态任务,而现有模型在未见任务和纯音频场景下泛化能力显著不足;二是构建过程中的技术瓶颈,包括多源异构数据(真实录音与合成语音)的标准化对齐、指令模板设计与多模态配置的统一整合,以及平衡语义与副语言学任务的样本分布。此外,需确保合成语音的声学多样性与质量,以支撑模型在复杂真实场景中的鲁棒性。
常用场景
经典使用场景
在语音与语言模型研究中,LLaSO数据集被广泛应用于多模态指令跟随任务的训练与评估。其核心价值在于提供了一个统一的框架,支持语音转文本、音频问答及副语言任务(如情感识别、口音分类)的端到端学习。研究者通过LLaSO-Align模块实现语音与文本的语义对齐,再利用LLaSO-Instruct进行多任务指令微调,最终通过LLaSO-Eval标准化基准进行性能验证。这种设计使得模型能够同时处理纯音频、文本指令加音频输入、音频指令加文本输入三种模态配置,显著提升了跨模态泛化能力。
衍生相关工作
LLaSO数据集催生了多项语音语言模型的创新研究,例如基于其架构的LLaSO-Base参考模型成为社区基线,启发了如Audio Flamingo的跨模态注意力机制优化、Qwen-Audio的专有数据替代方案、以及Salmonn的隐式对齐策略改进。这些工作普遍借鉴了LLaSO的多任务训练范式与评估标准,进一步拓展至流式语音对话、低资源语言适配等方向。此外,其开源生态促进了LauraGPT、Moshi等项目的可复现性验证,形成了以LLaSO为核心的语音语言模型研究体系。
数据集最近研究
最新研究方向
在大规模语音语言模型(LSLM)领域,LLaSO数据集的推出标志着研究范式的重大转变,其核心在于解决长期存在的架构碎片化与透明度缺失问题。当前研究聚焦于构建端到端的开源框架,通过整合1200万条语音文本对齐语料、1350万条多任务指令调优数据及可复现的标准化评估基准,推动模型在语音指令理解、跨模态泛化及副语言任务(如情感识别、口音分类)上的突破。热点方向包括纯音频场景下的零样本泛化、多模态指令组合的鲁棒性优化,以及基于合成语音与真实语音混合的数据增强策略。这一框架不仅为社区提供了可复现的基线模型(如3.8B参数的LLaSO-Base),更通过公开全栈资源降低了研究门槛,加速了语音与语言融合模型的协同创新,对促进多模态人工智能的透明化、标准化发展具有深远意义。
相关研究论文
- 1LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model宁波数字孪生与数字衍生技术研究院、逻辑智能技术、北京邮电大学、厦门大学 · 2025年
以上内容由遇见数据集搜集并总结生成



