RivaBench

Name: RivaBench
Creator: 字节跳动
Published: 2025-02-17 21:07:40
License: 暂无描述

arXiv2025-02-17 更新2025-02-19 收录

下载链接：

https://github.com/BriansIDP/video-SALMONN-o1

下载链接

链接失效反馈

官方服务：

资源简介：

RivaBench是一个由人类专家精心制作的高质量问题答案对数据集，包含超过4000个问题答案对，涵盖站立喜剧、学术演讲和合成视频检测等场景。该数据集旨在评估和增强大型语言模型在一般视频理解任务中的推理能力，特别是音频和视觉信息的融合推理。

RivaBench is a high-quality question-answer pair dataset meticulously curated by human experts, comprising over 4,000 question-answer pairs covering scenarios such as stand-up comedy, academic lectures, and synthetic video detection. This dataset aims to evaluate and enhance the reasoning capabilities of Large Language Models (LLMs) in general video understanding tasks, particularly the fused reasoning that integrates audio and visual information.

提供机构：

字节跳动

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

RivaBench数据集的构建旨在提升大型语言模型在通用视频理解任务中的推理能力。为了实现这一目标，研究者们首先利用Gemini-1.5-pro生成了一系列具有挑战性的问答对，并通过GPT-4o进行质量检查以确保问题与答案的逻辑性和有效性。这些问答对被用来训练video-SALMONN-o1模型，以增强其推理能力。随后，研究者们提出了过程直接偏好优化(pDPO)方法，该方法通过对比性步骤选择来实现针对多模态输入的步级奖励建模，从而进一步提升模型的推理能力。

特点

RivaBench数据集具有以下几个显著特点：首先，它包含了超过4000个高质量的问答对，这些问答对跨越了如单人喜剧、学术演示和合成视频检测等不同场景。其次，数据集中的问答对均由人类专家精心制作，确保了问题的深度和答案的准确性。最后，RivaBench的构建着重于推理密集型视频理解任务，这要求模型在推理过程中不断引用音频和视觉信息，从而增加了任务的难度。

使用方法

RivaBench数据集的使用方法包括：首先，利用数据集中的问答对对视频理解模型进行监督微调，以增强模型的推理能力。其次，通过pDPO方法进行训练，该方法通过对比性步骤选择和步级奖励建模，进一步提升模型的推理性能。最后，RivaBench还可以用于评估模型的推理能力，通过与基线模型的比较，可以量化模型在推理密集型视频理解任务上的性能提升。

背景与挑战

背景概述

随着大型语言模型（LLMs）在推理优化方面的进步，其解决复杂问题的能力得到了显著提升。然而，现有的研究主要集中在数学问题解决和视觉图形输入上，忽视了在视频理解领域的广泛应用。为解决这一问题，Sun等人提出了video-SALMONN-o1，这是一个开源的、增强推理能力的视听LLM，旨在处理通用的视频理解任务。为了提高其推理能力，研究团队开发了一个推理密集型数据集，该数据集包含具有逐步解决方案的挑战性视听问题。此外，他们提出了过程直接偏好优化（pDPO）方法，该方法利用对比性步骤选择来实现针对多模态输入的步级奖励建模。为了评估模型在多模态推理方面的性能，他们引入了RivaBench，这是第一个推理密集型视频理解基准，包含超过4000个高质量的、由专家精心策划的问题-答案对，涵盖单人喜剧、学术演示和合成视频检测等场景。video-SALMONN-o1在VideoMME、NExTQA和RivaBench等多个视频推理基准上实现了3-8%的准确率提升。

当前挑战

RivaBench数据集面临的挑战主要包括：1)所解决的领域问题，即视频理解中的推理挑战，需要模型能够理解和解释音频、视觉和文本模态之间的交互；2)构建过程中所遇到的挑战，如创建具有逐步解决方案的挑战性视听问题数据集，以及开发能够有效优化推理路径的训练方法。此外，pDPO方法需要在多模态输入的情况下实现高效的步级奖励建模，这也是一个重要的挑战。

常用场景

经典使用场景

RivaBench 数据集主要用于训练和评估大型语言模型在视频理解任务中的推理能力。该数据集包含超过 4,000 个高质量的问题-答案对，涉及喜剧表演、学术演讲和合成视频检测等场景。每个问题-答案对都经过专家精心策划，并提供详细的推理步骤，从而帮助模型学习如何从视频中提取信息并得出结论。

解决学术问题

RivaBench 数据集解决了现有大型语言模型在视频理解任务中推理能力不足的问题。通过提供具有挑战性的音频-视觉问题，并附带逐步解决方案，RivaBench 数据集为模型训练提供了丰富的学习材料。此外，RivaBench 数据集还引入了过程直接偏好优化 (pDPO) 算法，该算法利用对比步选择来实现针对多模态输入的步级奖励建模，从而进一步提高模型的推理能力。

衍生相关工作

RivaBench 数据集的提出为视频理解领域的研究提供了新的方向。基于 RivaBench 数据集，研究人员可以进一步探索如何提高大型语言模型在视频理解任务中的推理能力，以及如何将推理能力应用于更广泛的应用场景。此外，RivaBench 数据集还可以为其他视频理解基准测试提供参考，推动视频理解技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集