LongShOTBench

github2025-12-22 更新2025-12-24 收录

下载链接：

https://github.com/mbzuai-oryx/LongShOT

下载链接

链接失效反馈

官方服务：

资源简介：

LongShOTBench是一个诊断性基准，用于长形式多模态视频理解。它包含开放式问题、多轮对话以及需要视觉、语音和音频推理与工具使用的任务。每个样本包括参考答案和分级评分标准，用于可解释的评估。

LongShOTBench is a diagnostic benchmark for long-form multimodal video understanding. It encompasses open-ended questions, multi-turn dialogues, and tasks that require visual, speech, audio reasoning and tool utilization. Each sample includes reference answers and hierarchical scoring criteria for explainable evaluation.

创建时间：

2025-12-19

原始信息汇总

LongShOT 数据集概述

数据集基本信息

数据集名称: LongShOT (LongShOTBench)
主要类型: 诊断性基准测试与代理框架数据集
核心用途: 用于长视频多模态理解、推理与工具使用的评估
发布机构: 穆罕默德·本·扎耶德人工智能大学 (MBZUAI)
许可证: CC BY-NC-SA 4.0

数据集内容与特点

数据形式: 包含开放式问题、多轮对话以及需要视觉、语音和音频推理结合工具使用的任务。
样本构成: 每个样本包含参考答案和用于可解释性评估的分级评分标准。
模态覆盖: 支持视觉、语音和音频的多模态推理。
挑战性: 旨在诊断和挑战模型在真实世界长视频理解任务上的能力。

数据集构建流程

数据集通过一个系统化的管道构建：

原始视频处理: 从原始视频数据中提取语音、视觉和音频线索。
多模态处理: 生成按片段对齐和融合的元数据。
问题设计: 基于提炼的信息映射场景和问题类型，生成问题及对话式答案。
评估标准创建: 制定可验证的评分标准以评估答案的正确性和难度。
人工验证: 核心数据集（包含问答对和定制的评估标准）由人工验证者手动审查和修正，以确保其清洁可靠。

性能基准

当前模型在数据集上的表现存在显著差距：

Gemini-2.5-Flash: 达到 52.95% 的准确率。
开源模型: 准确率仍低于 30%。
LongShOTAgent (配套代理框架): 达到 44.66% 的准确率。

获取与使用

数据集地址: https://huggingface.co/datasets/MBZUAI/longshot-bench
论文地址: https://arxiv.org/abs/2512.16978
项目网站: https://mbzuai-oryx.github.io/LongShOT/
本地生成: 按照提供的安装、数据预处理和数据集生成步骤，可从原始视频生成最终数据集文件 (datagen/results/final_dataset.jsonl)。

评估方法

数据集提供了标准的评估流程：

生成模型响应: 使用脚本 (eval/generate.sh) 在数据集上运行候选模型以生成回答。
评估响应: 使用脚本 (eval/eval.sh) 根据数据集提供的评分标准对生成的回答进行评估。结果保存在 eval/results_postvalid/ 目录中。

引用

如果使用此数据集，请引用相关论文： bibtex @misc{kurpath2025benchmarkagenticframeworkomnimodal, title={A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos}, author={Mohammed Irfan Kurpath and Jaseel Muhammad Kaithakkodan and Jinxing Zhou and Sahal Shaji Mullappilly and Mohammad Almansoori and Noor Ahsan and Beknur Kalmakhanbet and Sambal Shikhar and Rishabh Lalla and Jean Lahoud and Mariette Awad and Fahad Shahbaz Khan and Salman Khan and Rao Muhammad Anwer and Hisham Cholakkal}, year={2025}, eprint={2512.16978}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.16978}, }

搜集汇总

数据集介绍

构建方式

在长视频多模态理解领域，数据集的构建需兼顾视觉、语音与音频信息的深度融合。LongShOTBench的构建始于原始视频数据，通过自动化流程提取语音、视觉及音频线索，并借助多模态处理技术生成片段级对齐与融合的元数据。随后，经过信息蒸馏的流程进入问题设计阶段，系统化地映射场景与问题类型，进而生成开放式问题与多轮对话答案。为确保数据质量，每个样本均配有可验证的评估准则，并经过人工审核与校正，最终形成包含问答对与定制化评估框架的核心数据集。

特点

LongShOTBench作为长视频全模态推理与工具使用的诊断性基准，其显著特点在于涵盖开放性问题、多轮对话及需要视觉、语音与音频推理的复杂任务。数据集每个样本均提供参考答案与分级评估准则，支持可解释的性能评估。当前最先进模型在该基准上表现存在显著差距，例如Gemini-2.5-Flash仅达到52.95%的准确率，开源模型普遍低于30%，而配套的LongShOTAgent框架则实现了44.66%的性能，凸显了现实世界长视频理解任务的挑战性。

使用方法

使用LongShOTBench需遵循系统化的流程。首先通过环境配置与依赖安装准备实验基础，随后利用YouTube认证机制下载原始视频数据，并借助预训练的视觉语言模型与语言模型处理视频，提取多模态元数据。数据集生成阶段将预处理结果转化为结构化的JSONL格式基准数据。评估时，用户可运行自动化脚本生成模型响应，并基于内置准则进行性能评估，结果将保存于指定目录，便于后续分析与比较。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，长视频理解成为计算机视觉与自然语言处理交叉领域的前沿课题。LongShOTBench由穆罕默德·本·扎耶德人工智能大学的研究团队于2025年提出，旨在构建一个诊断性基准与智能体框架，以推动全模态推理与工具使用的深入研究。该数据集聚焦于长视频中的开放式问答、多轮对话及跨视觉、语音与音频的复杂任务，通过提供参考答案与分级评估标准，为模型性能提供可解释的衡量依据。其核心研究问题在于解决现有模型在长时序、多模态信息融合与工具调用方面的能力局限，对推动具身智能与通用视频理解系统的发展具有重要影响力。

当前挑战

LongShOTBench致力于解决长视频全模态理解这一领域问题的多重挑战，包括模型对长时序依赖关系的捕捉困难、跨视觉、语音与音频模态的信息对齐与融合复杂性，以及在开放场景中灵活使用外部工具完成推理任务的智能体能力缺失。在数据集构建过程中，研究团队面临了视频数据采集与处理的工程挑战，例如从YouTube平台获取高质量长视频并确保版权合规性，同时需设计自动化流水线来提取并对齐多模态元数据。此外，生成高质量问答对与评估标准需要大量人工验证，以确保数据集的可靠性与基准的严谨性，这进一步增加了构建的复杂度与资源消耗。

常用场景

经典使用场景

在长视频多模态理解领域，LongShOTBench数据集为评估模型在复杂视听场景下的综合推理能力提供了标准化的测试平台。该数据集通过包含开放式问题、多轮对话以及需要视觉、语音和音频推理结合工具使用的任务，模拟了真实世界中长视频内容的分析需求。研究人员通常利用该数据集对各类多模态大模型进行系统性评估，比较它们在长时序信息处理、跨模态对齐以及上下文连贯性理解方面的性能差异，从而推动模型在长视频理解任务上的技术进步。

衍生相关工作

围绕LongShOTBench数据集，研究社区已衍生出一系列重要的相关工作和模型框架。其中，配套提出的LongShOTAgent框架采用了预处理、检索与迭代精化等策略，为长视频分析提供了可操作的智能体范式。该基准也激励了诸如Gemini-2.5-Flash等前沿模型的性能评测与优化，并促使更多开源模型在长视频多模态任务上进行针对性改进，从而共同推动了长视频理解领域在算法设计、评估方法及实际部署方面的系统性发展。

数据集最近研究