LLaSO-Align, LLaSO-Instruct, LLaSO-Eval
收藏github2025-08-22 更新2025-08-23 收录
下载链接:
https://github.com/EIT-NLP/LLaSO
下载链接
链接失效反馈官方服务:
资源简介:
LLaSO-Align (1200万样本): 基于ASR的对齐数据集,用于将语音基础到文本语义空间;LLaSO-Instruct (1350万样本/20个任务/3种模态配置): 跨语言、语义和副语言目标的多任务指令调优数据集;LLaSO-Eval (15,044样本): 用于指令跟随和跨模态泛化的分层基准测试数据集
LLaSO-Align (12 million samples): An alignment dataset based on ASR, designed for mapping speech to text semantic space; LLaSO-Instruct (13.5 million samples/20 tasks/3 modal configurations): A multi-task instruction tuning dataset with cross-lingual, semantic, and paralinguistic target objectives; LLaSO-Eval (15,044 samples): A hierarchical benchmark dataset for instruction following and cross-modal generalization.
创建时间:
2025-07-25
原始信息汇总
LLaSO 数据集概述
数据集简介
LLaSO 是首个完全开放、端到端的大规模语音-语言建模框架,统一了数据、评估和建模。该数据集包含 25.5M 训练样本,覆盖 20 个任务和 3 种模态配置,并包含 15,044 个样本的分层基准测试。
数据集组成
LLaSO-Align(12.0M 样本)
- 目的:基于 ASR 的语音-文本对齐,用于将语音基础到文本语义空间
- 领域:对话、叙事、有声读物、口音语音
- 模板:18 种 ASR 指令类型,统一 JSON 格式
LLaSO-Instruct(13.5M 样本)
- 目的:多任务指令调优,用于鲁棒的组合理解
- 任务类型:涵盖语言、语义和副语言目标,包含封闭式和开放式格式
- 模态配置:
- 文本指令 + 音频输入:X<sub>query</sub><sup>(t,a)</sup>
- 音频指令 + 文本输入:X<sub>query</sub><sup>(a,t)</sup>
- 纯音频:X<sub>query</sub><sup>(a)</sup>
- 标签粒度:多粒度标注(如粗粒度到细粒度的年龄、口音)
LLaSO-Eval(15,044 样本)
- 用途:分层基准测试
- 覆盖范围:所有任务和模态组合
- 功能:支持弃权率分析和跨模态泛化评估
数据特征
- 总样本量:25.5M(12.0M Align + 13.5M Instruct)
- 任务分布:52% 语言任务,8% 语义任务,40% 副语言任务
- 数据来源:71% 真实世界音频,29% 合成语音
- 模态配置:支持所有主要文本 ↔ 音频组合
数据集获取
- LLaSO-Eval:https://huggingface.co/datasets/YirongSun/LLaSO-Eval
- LLaSO-Instruct:https://huggingface.co/datasets/YirongSun/LLaSO-Instruct
- LLaSO-Align:即将发布
参考模型
- LLaSO-Base(3.8B 参数):https://huggingface.co/YirongSun/LLaSO-Base-3.8B-Instruct
- 训练数据:LLaSO-Align + LLaSO-Instruct(25.5M)
- 模态配置:(t,a), (a,t), (a)
- 标准化得分:0.72
相关资源
- 论文:https://arxiv.org/abs/2508.15418
- 代码库:https://github.com/EIT-NLP/LLaSO
搜集汇总
数据集介绍

构建方式
在语音与语言融合建模领域,LLaSO数据集通过两阶段构建策略实现多模态对齐与指令调优。LLaSO-Align子集包含1200万样本,采用自动语音识别技术将语音信号与文本语义空间对齐,涵盖会话、叙事、有声书及口音语音等多领域数据,并设计18种指令模板统一数据格式。LLaSO-Instruct子集扩展至1350万样本,覆盖20项任务的三类模态配置,通过精心设计的任务比例实现语言性、语义性及超语言性目标的平衡。
特点
该数据集的核心特征体现在其全开放架构与多模态组合灵活性。作为首个端到端开源的语音-语言模型栈,其2550万样本全面支持文本+音频、音频+文本及纯音频三种模态交互模式。数据分布呈现71%真实音频与29%合成语音的混合特征,任务设计侧重超语言性任务以弥补现有开源数据的不足。评估集LLaSO-Eval包含15044条分层样本,支持指令遵循度、跨模态泛化能力及弃答率等多维度系统性评估。
使用方法
研究者可通过Hugging Face平台获取LLaSO三个子集,使用提供的data_merge.py脚本整合多模态JSON文件进行模型训练。训练过程分为语音-文本对齐与多任务指令调优两阶段,分别执行align.sh与finetune.sh脚本启动。推理阶段调用model_eval.py模块,指定音频编码器与模型路径即可对自定义数据或评估集进行测试。评估模块提供针对20项任务的专用指标脚本,支持跨模态泛化分析与稳定性验证。
背景与挑战
背景概述
随着多模态人工智能研究的深入,语音与语言模型的融合成为自然语言处理领域的前沿课题。LLaSO框架由EIT-NLP实验室于2025年推出,旨在构建首个完全开源的语音-语言统一建模体系。该框架通过2550万样本覆盖20项跨模态任务,包含语音文本对齐、多任务指令微调和分层评估三大核心模块,其3.8B参数的基础模型采用两阶段训练策略,显著提升了组合式语义理解能力,为语音语言模型的可复现研究建立了新范式。
当前挑战
在解决语音-语言联合建模问题时,模型需克服跨模态语义对齐、多任务冲突优化以及纯音频指令理解三大核心难题。数据构建过程中面临真实语音与合成语音的质量均衡、多粒度标注一致性维护,以及15万条评估数据的分层采样等挑战,特别是在保持71%真实音频比例的同时,还需确保29%合成语音在韵律和音素层面的自然度。
常用场景
经典使用场景
在语音与语言融合建模领域,LLaSO数据集通过其多模态配置支持语音到文本、文本到语音及纯音频的复合理解任务。研究者通常利用其2550万样本规模,在20类任务上进行指令微调,特别是在语音识别、语义理解和副语言特征分析等经典场景中验证模型跨模态泛化能力。该框架为构建可处理复杂语音-文本交互的系统提供了标准化实验环境。
实际应用
该数据集支撑智能语音助手、多模态交互系统和无障碍通信工具的实际开发。其覆盖的口语理解、情感识别、口音分析等功能可直接应用于客服机器人、教育评估平台和医疗辅助诊断系统。通过提供真实与合成语音的混合数据,LLaSO增强了模型在多样化场景下的鲁棒性,为工业级应用提供了可靠性验证基础。
衍生相关工作
基于LLaSO的开放生态,衍生出多项语音-语言融合建模的创新研究。包括采用交错解码策略提升纯音频任务性能的方法、探索音频编码器解冻对语义任务影响的优化方案,以及构建专注于语音到语音转换的窄域系统。这些工作共同推动了多模态表示学习、指令优化和跨模态迁移学习等方向的发展。
以上内容由遇见数据集搜集并总结生成



