five

LLaSO-Align, LLaSO-Instruct, LLaSO-Eval

收藏
github2025-08-22 更新2025-08-23 收录
下载链接:
https://github.com/EIT-NLP/LLaSO
下载链接
链接失效反馈
官方服务:
资源简介:
LLaSO-Align (1200万样本): 基于ASR的对齐数据集,用于将语音基础到文本语义空间;LLaSO-Instruct (1350万样本/20个任务/3种模态配置): 跨语言、语义和副语言目标的多任务指令调优数据集;LLaSO-Eval (15,044样本): 用于指令跟随和跨模态泛化的分层基准测试数据集

LLaSO-Align (12 million samples): An alignment dataset based on ASR, designed for mapping speech to text semantic space; LLaSO-Instruct (13.5 million samples/20 tasks/3 modal configurations): A multi-task instruction tuning dataset with cross-lingual, semantic, and paralinguistic target objectives; LLaSO-Eval (15,044 samples): A hierarchical benchmark dataset for instruction following and cross-modal generalization.
创建时间:
2025-07-25
原始信息汇总

LLaSO 数据集概述

数据集简介

LLaSO 是首个完全开放、端到端的大规模语音-语言建模框架,统一了数据、评估和建模。该数据集包含 25.5M 训练样本,覆盖 20 个任务和 3 种模态配置,并包含 15,044 个样本的分层基准测试。

数据集组成

LLaSO-Align(12.0M 样本)

  • 目的:基于 ASR 的语音-文本对齐,用于将语音基础到文本语义空间
  • 领域:对话、叙事、有声读物、口音语音
  • 模板:18 种 ASR 指令类型,统一 JSON 格式

LLaSO-Instruct(13.5M 样本)

  • 目的:多任务指令调优,用于鲁棒的组合理解
  • 任务类型:涵盖语言、语义和副语言目标,包含封闭式和开放式格式
  • 模态配置
    • 文本指令 + 音频输入:X<sub>query</sub><sup>(t,a)</sup>
    • 音频指令 + 文本输入:X<sub>query</sub><sup>(a,t)</sup>
    • 纯音频:X<sub>query</sub><sup>(a)</sup>
  • 标签粒度:多粒度标注(如粗粒度到细粒度的年龄、口音)

LLaSO-Eval(15,044 样本)

  • 用途:分层基准测试
  • 覆盖范围:所有任务和模态组合
  • 功能:支持弃权率分析和跨模态泛化评估

数据特征

  • 总样本量:25.5M(12.0M Align + 13.5M Instruct)
  • 任务分布:52% 语言任务,8% 语义任务,40% 副语言任务
  • 数据来源:71% 真实世界音频,29% 合成语音
  • 模态配置:支持所有主要文本 ↔ 音频组合

数据集获取

  • LLaSO-Eval:https://huggingface.co/datasets/YirongSun/LLaSO-Eval
  • LLaSO-Instruct:https://huggingface.co/datasets/YirongSun/LLaSO-Instruct
  • LLaSO-Align:即将发布

参考模型

  • LLaSO-Base(3.8B 参数):https://huggingface.co/YirongSun/LLaSO-Base-3.8B-Instruct
  • 训练数据:LLaSO-Align + LLaSO-Instruct(25.5M)
  • 模态配置:(t,a), (a,t), (a)
  • 标准化得分:0.72

相关资源

  • 论文:https://arxiv.org/abs/2508.15418
  • 代码库:https://github.com/EIT-NLP/LLaSO
搜集汇总
数据集介绍
main_image_url
构建方式
在语音与语言融合建模领域,LLaSO数据集通过两阶段构建策略实现多模态对齐与指令调优。LLaSO-Align子集包含1200万样本,采用自动语音识别技术将语音信号与文本语义空间对齐,涵盖会话、叙事、有声书及口音语音等多领域数据,并设计18种指令模板统一数据格式。LLaSO-Instruct子集扩展至1350万样本,覆盖20项任务的三类模态配置,通过精心设计的任务比例实现语言性、语义性及超语言性目标的平衡。
特点
该数据集的核心特征体现在其全开放架构与多模态组合灵活性。作为首个端到端开源的语音-语言模型栈,其2550万样本全面支持文本+音频、音频+文本及纯音频三种模态交互模式。数据分布呈现71%真实音频与29%合成语音的混合特征,任务设计侧重超语言性任务以弥补现有开源数据的不足。评估集LLaSO-Eval包含15044条分层样本,支持指令遵循度、跨模态泛化能力及弃答率等多维度系统性评估。
使用方法
研究者可通过Hugging Face平台获取LLaSO三个子集,使用提供的data_merge.py脚本整合多模态JSON文件进行模型训练。训练过程分为语音-文本对齐与多任务指令调优两阶段,分别执行align.sh与finetune.sh脚本启动。推理阶段调用model_eval.py模块,指定音频编码器与模型路径即可对自定义数据或评估集进行测试。评估模块提供针对20项任务的专用指标脚本,支持跨模态泛化分析与稳定性验证。
背景与挑战
背景概述
随着多模态人工智能研究的深入,语音与语言模型的融合成为自然语言处理领域的前沿课题。LLaSO框架由EIT-NLP实验室于2025年推出,旨在构建首个完全开源的语音-语言统一建模体系。该框架通过2550万样本覆盖20项跨模态任务,包含语音文本对齐、多任务指令微调和分层评估三大核心模块,其3.8B参数的基础模型采用两阶段训练策略,显著提升了组合式语义理解能力,为语音语言模型的可复现研究建立了新范式。
当前挑战
在解决语音-语言联合建模问题时,模型需克服跨模态语义对齐、多任务冲突优化以及纯音频指令理解三大核心难题。数据构建过程中面临真实语音与合成语音的质量均衡、多粒度标注一致性维护,以及15万条评估数据的分层采样等挑战,特别是在保持71%真实音频比例的同时,还需确保29%合成语音在韵律和音素层面的自然度。
常用场景
经典使用场景
在语音与语言融合建模领域,LLaSO数据集通过其多模态配置支持语音到文本、文本到语音及纯音频的复合理解任务。研究者通常利用其2550万样本规模,在20类任务上进行指令微调,特别是在语音识别、语义理解和副语言特征分析等经典场景中验证模型跨模态泛化能力。该框架为构建可处理复杂语音-文本交互的系统提供了标准化实验环境。
实际应用
该数据集支撑智能语音助手、多模态交互系统和无障碍通信工具的实际开发。其覆盖的口语理解、情感识别、口音分析等功能可直接应用于客服机器人、教育评估平台和医疗辅助诊断系统。通过提供真实与合成语音的混合数据,LLaSO增强了模型在多样化场景下的鲁棒性,为工业级应用提供了可靠性验证基础。
衍生相关工作
基于LLaSO的开放生态,衍生出多项语音-语言融合建模的创新研究。包括采用交错解码策略提升纯音频任务性能的方法、探索音频编码器解冻对语义任务影响的优化方案,以及构建专注于语音到语音转换的窄域系统。这些工作共同推动了多模态表示学习、指令优化和跨模态迁移学习等方向的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作