LLaSO-Align, LLaSO-Instruct, LLaSO-Eval

github2025-08-22 更新2025-08-23 收录

下载链接：

https://github.com/EIT-NLP/LLaSO

下载链接

链接失效反馈

官方服务：

资源简介：

LLaSO-Align (1200万样本): 基于ASR的对齐数据集，用于将语音基础到文本语义空间；LLaSO-Instruct (1350万样本/20个任务/3种模态配置): 跨语言、语义和副语言目标的多任务指令调优数据集；LLaSO-Eval (15,044样本): 用于指令跟随和跨模态泛化的分层基准测试数据集

LLaSO-Align (12 million samples): An alignment dataset based on ASR, designed for mapping speech to text semantic space; LLaSO-Instruct (13.5 million samples/20 tasks/3 modal configurations): A multi-task instruction tuning dataset with cross-lingual, semantic, and paralinguistic target objectives; LLaSO-Eval (15,044 samples): A hierarchical benchmark dataset for instruction following and cross-modal generalization.

创建时间：

2025-07-25

原始信息汇总

LLaSO 数据集概述

数据集简介

LLaSO 是首个完全开放、端到端的大规模语音-语言建模框架，统一了数据、评估和建模。该数据集包含 25.5M 训练样本，覆盖 20 个任务和 3 种模态配置，并包含 15,044 个样本的分层基准测试。

数据集组成

LLaSO-Align（12.0M 样本）

目的：基于 ASR 的语音-文本对齐，用于将语音基础到文本语义空间
领域：对话、叙事、有声读物、口音语音
模板：18 种 ASR 指令类型，统一 JSON 格式

LLaSO-Instruct（13.5M 样本）

目的：多任务指令调优，用于鲁棒的组合理解
任务类型：涵盖语言、语义和副语言目标，包含封闭式和开放式格式
模态配置：
- 文本指令 + 音频输入：Xquery(t,a)
- 音频指令 + 文本输入：Xquery(a,t)
- 纯音频：Xquery(a)
标签粒度：多粒度标注（如粗粒度到细粒度的年龄、口音）

LLaSO-Eval（15,044 样本）

用途：分层基准测试
覆盖范围：所有任务和模态组合
功能：支持弃权率分析和跨模态泛化评估

数据特征

总样本量：25.5M（12.0M Align + 13.5M Instruct）
任务分布：52% 语言任务，8% 语义任务，40% 副语言任务
数据来源：71% 真实世界音频，29% 合成语音
模态配置：支持所有主要文本 ↔ 音频组合

数据集获取

LLaSO-Eval：https://huggingface.co/datasets/YirongSun/LLaSO-Eval
LLaSO-Instruct：https://huggingface.co/datasets/YirongSun/LLaSO-Instruct
LLaSO-Align：即将发布

参考模型

LLaSO-Base（3.8B 参数）：https://huggingface.co/YirongSun/LLaSO-Base-3.8B-Instruct
训练数据：LLaSO-Align + LLaSO-Instruct（25.5M）
模态配置：(t,a), (a,t), (a)
标准化得分：0.72

相关资源

论文：https://arxiv.org/abs/2508.15418
代码库：https://github.com/EIT-NLP/LLaSO

搜集汇总

数据集介绍

构建方式

在语音与语言融合建模领域，LLaSO数据集通过两阶段构建策略实现多模态对齐与指令调优。LLaSO-Align子集包含1200万样本，采用自动语音识别技术将语音信号与文本语义空间对齐，涵盖会话、叙事、有声书及口音语音等多领域数据，并设计18种指令模板统一数据格式。LLaSO-Instruct子集扩展至1350万样本，覆盖20项任务的三类模态配置，通过精心设计的任务比例实现语言性、语义性及超语言性目标的平衡。

特点

该数据集的核心特征体现在其全开放架构与多模态组合灵活性。作为首个端到端开源的语音-语言模型栈，其2550万样本全面支持文本+音频、音频+文本及纯音频三种模态交互模式。数据分布呈现71%真实音频与29%合成语音的混合特征，任务设计侧重超语言性任务以弥补现有开源数据的不足。评估集LLaSO-Eval包含15044条分层样本，支持指令遵循度、跨模态泛化能力及弃答率等多维度系统性评估。

使用方法

研究者可通过Hugging Face平台获取LLaSO三个子集，使用提供的data_merge.py脚本整合多模态JSON文件进行模型训练。训练过程分为语音-文本对齐与多任务指令调优两阶段，分别执行align.sh与finetune.sh脚本启动。推理阶段调用model_eval.py模块，指定音频编码器与模型路径即可对自定义数据或评估集进行测试。评估模块提供针对20项任务的专用指标脚本，支持跨模态泛化分析与稳定性验证。

背景与挑战

背景概述

随着多模态人工智能研究的深入，语音与语言模型的融合成为自然语言处理领域的前沿课题。LLaSO框架由EIT-NLP实验室于2025年推出，旨在构建首个完全开源的语音-语言统一建模体系。该框架通过2550万样本覆盖20项跨模态任务，包含语音文本对齐、多任务指令微调和分层评估三大核心模块，其3.8B参数的基础模型采用两阶段训练策略，显著提升了组合式语义理解能力，为语音语言模型的可复现研究建立了新范式。

当前挑战

在解决语音-语言联合建模问题时，模型需克服跨模态语义对齐、多任务冲突优化以及纯音频指令理解三大核心难题。数据构建过程中面临真实语音与合成语音的质量均衡、多粒度标注一致性维护，以及15万条评估数据的分层采样等挑战，特别是在保持71%真实音频比例的同时，还需确保29%合成语音在韵律和音素层面的自然度。

常用场景

经典使用场景

在语音与语言融合建模领域，LLaSO数据集通过其多模态配置支持语音到文本、文本到语音及纯音频的复合理解任务。研究者通常利用其2550万样本规模，在20类任务上进行指令微调，特别是在语音识别、语义理解和副语言特征分析等经典场景中验证模型跨模态泛化能力。该框架为构建可处理复杂语音-文本交互的系统提供了标准化实验环境。

实际应用

该数据集支撑智能语音助手、多模态交互系统和无障碍通信工具的实际开发。其覆盖的口语理解、情感识别、口音分析等功能可直接应用于客服机器人、教育评估平台和医疗辅助诊断系统。通过提供真实与合成语音的混合数据，LLaSO增强了模型在多样化场景下的鲁棒性，为工业级应用提供了可靠性验证基础。

衍生相关工作

基于LLaSO的开放生态，衍生出多项语音-语言融合建模的创新研究。包括采用交错解码策略提升纯音频任务性能的方法、探索音频编码器解冻对语义任务影响的优化方案，以及构建专注于语音到语音转换的窄域系统。这些工作共同推动了多模态表示学习、指令优化和跨模态迁移学习等方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集