LibriSQA

Name: LibriSQA
Creator: 上海交通大学协同媒体创新中心
Published: 2024-04-18 16:13:58
License: 暂无描述

arXiv2024-04-18 更新2024-06-21 收录

下载链接：

https://github.com/ZihanZhaoSJTU/LibriSQA

下载链接

链接失效反馈

官方服务：

资源简介：

LibriSQA是一个专为大型语言模型优化的新型口语问答数据集，由上海交通大学协同媒体创新中心创建。该数据集包含214,000个口语问答对，覆盖广泛的主题，分为两部分：第一部分设计用于自然对话格式，第二部分专注于多项选择题及其分析段落。LibriSQA旨在通过提供自由形式的开放式问答，推动大型语言模型在多模态任务中的理解和交互能力。该数据集的应用领域包括提升语言模型的口语理解和生成能力，以及在自动语音识别任务中的应用。

LibriSQA is a novel spoken question answering dataset optimized for large language models, created by the Collaborative Media Innovation Center of Shanghai Jiao Tong University. This dataset contains 214,000 spoken question-answer pairs covering a wide range of topics, and is divided into two parts: the first part is designed for natural conversation formats, while the second part focuses on multiple-choice questions and their analytical passages. LibriSQA aims to advance the understanding and interaction capabilities of large language models in multimodal tasks by providing free-form open-ended question answering. Its application areas include improving the spoken language understanding and generation capabilities of language models, as well as applications in automatic speech recognition tasks.

提供机构：

上海交通大学协同媒体创新中心

创建时间：

2023-08-21

搜集汇总

数据集介绍

构建方式

在语音与文本多模态交互研究领域，LibriSQA数据集的构建体现了对高质量语音问答资源的系统性追求。该数据集基于LibriSpeech语音库，通过ChatGPT自动化生成问答对，形成两个互补部分：第一部分采用自然对话形式，生成开放式问答对；第二部分则构建包含四个选项及分析的多选题格式。为确保数据质量，研究团队实施了多轮过滤与修正流程，包括使用GPT-4评估问答相关性、验证文档信息充分性、消除文本直接重复现象，并将术语“文本”统一替换为“语音”以契合语音文档特性。这种构建方式最终产生了总计21.4万对高质量语音问答数据，为语音理解研究提供了规模化的基准资源。

特点

LibriSQA数据集在语音问答领域展现出若干显著特征。其核心优势在于同时包含自由形式与多项选择两种问答范式，既支持自然对话场景的开放式研究，又提供便于量化评估的结构化任务。数据集全部采用真实人类朗读语音，而非合成语音，确保了与现实应用场景的一致性。语音片段长度普遍控制在20秒以内，这种简洁性使其能够更顺畅地集成到大型语言模型中，避免了复杂的语音压缩需求。值得注意的是，该数据集的问题设计强调推理能力而非简单信息提取，答案往往需要基于语音内容进行逻辑推导，这有效提升了任务的挑战性与研究价值。

使用方法

在语音问答任务的应用实践中，LibriSQA数据集支持端到端的多模态学习框架。研究者可将语音特征通过预训练模型（如wav2vec 2.0、HuBERT或WavLM）提取后，与文本问题嵌入进行融合，输入到大型语言模型中进行联合训练。数据集的第一部分适用于生成式评估，可采用BLEU、ROUGE和BERT相似度等指标衡量模型输出的语义质量；第二部分则支持分类式评估，通过准确率与F1分数直接衡量模型的多选题选择能力。该数据集还可与重构的LibriSpeech数据结合使用，实现自动语音识别任务与语音问答任务的协同训练，促进语音-文本对齐能力的提升。

背景与挑战

背景概述

在大型语言模型（LLMs）飞速发展的背景下，多模态任务，尤其是语音与文本深度融合的语音问答（SQA）任务，成为亟待突破的研究前沿。为填补该领域高质量数据集的空白，上海交通大学与上海人工智能实验室的研究团队于近期联合推出了LibriSQA数据集。该数据集基于广泛使用的LibriSpeech语料库构建，包含21.4万个自由形式与开放式问答对，旨在探索LLMs对语音信息的深度理解与对齐能力。其核心研究问题聚焦于如何促使LLMs在无需依赖自动语音识别（ASR）模块的情况下，直接实现语音与文本的精准交互与语义理解，从而推动通用多模态大模型的演进。

当前挑战

LibriSQA数据集旨在解决的领域挑战，是当前LLMs在处理需要语音与文本深度对齐的开放式问答任务时能力不足的问题。传统SQA数据集多局限于预测时间片段或选择选项，无法充分发挥LLMs的文本生成与推理优势。在构建过程中，研究团队面临多重挑战：首先，需生成大量高质量、需推理而非简单提取的问答对，同时确保其与简短真实语音片段严格相关；其次，需设计能同时支持自然对话评估与高效客观评测的数据结构；最后，在整合至LLMs时，需避免对长语音进行有损压缩，以保持语音信息的完整性，这对模型架构与训练方法提出了更高要求。

常用场景

经典使用场景

在语音与文本多模态交互研究领域，LibriSQA数据集被广泛用于评估和训练端到端的语音问答模型。其经典使用场景聚焦于模拟真实对话环境，其中模型接收一段真实语音作为背景信息，并针对文本形式的问题生成自由形式的答案。该数据集包含自然对话格式和多项选择题两种结构，为研究者提供了评估模型在开放域问答中理解、推理和生成能力的标准化平台。通过将自动语音识别任务转化为问答格式，LibriSQA进一步拓展了其在语音理解任务中的应用范围，成为探索大语言模型处理多模态信息能力的核心工具。

解决学术问题

LibriSQA主要解决了语音问答任务中数据稀缺与格式局限的学术难题。传统语音问答数据集多依赖时间片段预测或合成语音，限制了模型对自由形式问答和真实语音场景的适应能力。该数据集通过提供大规模、真实语音驱动的开放域问答对，促进了端到端语音文本对齐方法的发展，使研究者能够深入探索大语言模型在跨模态理解中的内在机制。其轻量级框架设计显著降低了计算资源需求，为构建通用多模态大语言模型奠定了实验基础，推动了语音与文本深度融合的前沿研究。

衍生相关工作

LibriSQA的发布催生了一系列围绕语音文本多模态学习的研究工作。其轻量级端到端框架启发了后续如SpeechGPT、AudioPaLM等模型的设计思路，这些工作进一步探索了语音指令跟随、语音翻译等扩展任务。在数据集层面，该工作促进了多语言语音问答数据集的构建浪潮，研究者开始关注跨语言语音理解问题。同时，其提出的语音特征提取器与大语言模型融合范式，为后续视觉语音多模态模型提供了可借鉴的架构方案，推动了通用多模态基础模型的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集