Lyra Dataset

Name: Lyra Dataset
Creator: 香港中文大学、SmartMore、香港科技大学
Published: 2024-12-13 01:50:39
License: 暂无描述

arXiv2024-12-13 更新2024-12-25 收录

下载链接：

https://github.com/dvlab-research/Lyra

下载链接

链接失效反馈

官方服务：

资源简介：

Lyra数据集是由香港中文大学、SmartMore和香港科技大学联合创建的高质量多模态数据集，旨在提升多模态大语言模型（MLLM）的语音处理能力。该数据集包含150万条文本-图像-语音样本和1.2万条长语音样本，数据来源于多种公共资源，确保了数据的多样性和丰富性。数据集的创建过程结合了现有的开源大模型和多模态LoRA模块，通过训练使模型能够处理复杂的长时间语音输入，提升模型的多模态理解和推理能力。Lyra数据集主要应用于多模态任务，如视觉-语言、视觉-语音和语音-语言任务，旨在解决长时间语音输入和多模态交互中的复杂问题。

The Lyra Dataset is a high-quality multimodal dataset jointly developed by The Chinese University of Hong Kong, SmartMore, and The Hong Kong University of Science and Technology, aiming to enhance the speech processing capabilities of multimodal large language models (MLLMs). This dataset comprises 1.5 million text-image-speech samples and 12,000 long-duration speech samples, with data sourced from various public resources to guarantee its diversity and richness. The development of the dataset integrates existing open-source large models and multimodal LoRA modules, enabling the models to handle complex long-duration speech inputs and improving their multimodal understanding and reasoning capabilities. The Lyra Dataset is primarily applied to multimodal tasks, including vision-language, vision-speech, and speech-language tasks, with the goal of addressing complex challenges in long-duration speech input and multimodal interaction.

提供机构：

香港中文大学、SmartMore、香港科技大学

创建时间：

2024-12-13

搜集汇总

数据集介绍

构建方式

Lyra数据集的构建采用了多模态数据的整合策略，涵盖了语言、视觉和音频三种模态。首先，研究人员从公开的多模态数据源中收集了150万条文本-图像-语音样本，确保了数据的多样性和丰富性。其次，为了增强模型对长语音输入的处理能力，首次构建了一个包含1.2万条长语音样本的数据集，这些样本的时长从几分钟到数小时不等，涵盖了广泛的领域和主题。通过这种方式，Lyra数据集不仅能够支持复杂的多模态任务，还能够处理长时间的语音输入，从而提升了模型的全面认知能力。

特点

Lyra数据集的特点在于其多模态的全面性和对语音模态的深度整合。数据集不仅包含了传统的文本和图像数据，还特别强调了语音数据的多样性和复杂性，尤其是长语音样本的引入，使得模型能够处理更长时间的语音输入。此外，数据集通过多模态LoRA模块和潜在多模态提取器，增强了不同模态之间的信息交互，尤其是在语音与视觉、语音与文本之间的关联上，进一步提升了模型的性能。这种多模态的整合使得Lyra在视觉-语言、视觉-语音和语音-语言任务上均表现出色，达到了当前最先进的水平。

使用方法

Lyra数据集的使用方法主要围绕多模态任务的训练和评估展开。研究人员首先通过多模态LoRA模块对现有的开源大模型进行微调，减少了训练成本和数据需求。接着，利用潜在多模态提取器对长语音、视频和图像数据进行动态筛选，保留与任务相关的关键信息，从而提高了训练和推理的效率。在评估阶段，Lyra数据集被用于测试模型在视觉-语言、视觉-语音和语音-语言任务上的表现，尤其是在长语音输入的处理能力上，模型通过潜在跨模态正则器和多模态提取器的协同作用，显著提升了任务的准确性和效率。

背景与挑战

背景概述

Lyra数据集是由香港中文大学、SmartMore和香港科技大学的研究团队于2024年提出的，旨在推动多模态大语言模型（MLLMs）在语音、视觉和语言等多模态理解与推理任务中的发展。该数据集包含150万条多模态（语言、视觉、音频）数据样本和1.2万条长语音样本，特别强调语音与其他模态的深度融合。Lyra框架通过引入多模态LoRA、潜在跨模态正则器和潜在多模态提取器等创新技术，显著提升了模型在长语音理解、跨模态效率和语音交互等方面的能力。该数据集在视觉-语言、视觉-语音和语音-语言等多个基准测试中取得了最先进的性能，同时减少了训练数据量和计算资源消耗，推动了多模态人工智能的进一步发展。

当前挑战

Lyra数据集在构建和应用过程中面临多重挑战。首先，多模态数据的融合与对齐是一个核心难题，特别是语音与视觉、文本之间的跨模态信息交互。现有的多模态模型往往仅关注语音与文本的关系，而忽略了语音与其他模态的深度整合。其次，长语音处理对模型的上下文理解能力提出了更高要求，传统的语音编码器在处理超过30秒的音频时表现不佳，而Lyra通过构建首个长语音SFT数据集，解决了这一瓶颈。此外，数据集的构建需要大量的高质量多模态数据，且训练过程中需平衡不同模态的性能，避免因引入新模态而导致原有模态能力的退化。最后，计算资源的限制也是不可忽视的挑战，尤其是在处理长上下文任务时，模型的内存和计算效率成为关键瓶颈。

常用场景

经典使用场景

Lyra数据集在多模态大语言模型（MLLMs）的研究中具有广泛的应用，尤其是在语音、视觉和文本的多模态理解任务中。该数据集通过提供高质量的语音、图像和文本数据，支持模型在长语音理解、跨模态推理和语音生成等任务中的训练和评估。其经典使用场景包括语音-视觉任务、语音-文本任务以及视觉-语言任务，尤其是在处理长语音输入和复杂多模态交互时表现出色。

衍生相关工作

Lyra数据集的发布推动了多模态大语言模型领域的多项经典工作。例如，基于Lyra的研究提出了多模态LoRA模块，显著提升了模型在跨模态任务中的性能。此外，Lyra的长语音数据集为处理长语音输入提供了新的基准，推动了长语音理解和生成技术的发展。相关研究还探索了Lyra在语音-视觉任务中的应用，提出了潜在跨模态正则化器，进一步提升了语音与视觉模态的整合效果。这些工作不仅扩展了Lyra的应用场景，也为未来的多模态研究提供了重要的参考和基础。

数据集最近研究