agentvidbench/agentvidbench

Name: agentvidbench/agentvidbench
Creator: agentvidbench
Published: 2026-05-02 08:18:53
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/agentvidbench/agentvidbench

下载链接

链接失效反馈

官方服务：

资源简介：

AgentVidBench是一个视频问答基准测试数据集，包含100个多项选择题，覆盖71个独特的视频。每个问题有26个选项（A-Z），要求观看整个视频才能回答。问题设计旨在抵抗时间戳跳跃，需要持续的感知、计数、OCR、视听基础或多步推理。数据集包含两个主要文件：questions.jsonl和videos.jsonl，分别存储问题和视频的元数据。

AgentVidBench is a video question-answering benchmark with 100 multiple-choice questions over 71 unique videos. Each question has 26 answer options (A–Z) and requires watching the full video — questions are designed to resist timestamp-jumping and demand sustained perception, counting, OCR, audio-visual grounding, or multi-step reasoning. The dataset includes two main files: questions.jsonl and videos.jsonl, which store the metadata for questions and videos respectively.

提供机构：

agentvidbench

搜集汇总

数据集介绍

构建方式

AgentVidBench 是一个面向视频理解的多项选择问答基准数据集，由 KRAFTON 团队构建。该数据集包含 100 道精心设计的多选题，覆盖 71 个独立视频片段。每道题目配备 26 个选项（A–Z），旨在评估模型在持续感知、计数、OCR、视听融合及多步推理等方面的能力。数据集以 JSONL 格式组织，questions.jsonl 存储问题元信息，videos.jsonl 记录视频属性，视频文件存放于 videos/ 目录下。构建过程中，题目被赋予难度等级（easy 至 very_hard）、智能体复杂度等级（L1–L4）和认知任务类别，并设计了不同类型的干扰项策略，以确保评估的全面性与挑战性。

特点

AgentVidBench 的独特之处在于其高度结构化的评估体系。每道题目均附带详尽的推理轨迹（trajectory），记录模型在解答过程中每一步的工具调用、参数、思考过程与观察结果，为可解释性分析提供支撑。题目设计上，通过要求观看完整视频来防止基于时间戳的捷径，迫使模型进行持续感知与多模态协同推理。数据集还提供了答案解释（answer_explanation），增强了标注的可信度。随机基线准确率仅为 3.8%，体现了任务的高难度。此外，视频元数据涵盖风格、音频类型、时长等多维度信息，便于进行细粒度的能力诊断。

使用方法

用户可通过 Hugging Face Datasets 库便捷加载数据。使用 load_dataset('json', data_files='questions.jsonl') 可导入问题数据，同样方式可加载视频元数据。问题与视频通过 video_path 和 file_name 字段关联。数据集无训练/验证/测试划分，所有样本均归属 'train' 拆分，适合直接用于评测。推荐的使用流程包括：根据 video_path 定位并加载对应视频，结合问题文本与 26 个选项进行推理，模型输出应为字母 A–Z。对于评估，可通过比较预测答案与 ground truth 计算准确率，并可进一步利用 trajectory 和 skills 字段分析模型在不同智能体能力维度上的表现。

背景与挑战

背景概述

AgentVidBench是一个由KRAFTON团队Seoyeon An、Hyeonseo Jang和Minsu Kim于2026年创建的面向视频问答的基准测试数据集。随着多模态大语言模型与智能体系统的深度融合，视频理解任务正从简单的片段级识别迈向需要持续感知、跨模态推理与多步规划的复杂场景。核心研究问题在于评估智能体在未经裁剪的完整视频中执行计数、OCR、视听融合及多步推理等高级认知任务的能力。该数据集包含100道选择题，每道题提供26个候选选项，随机基线准确率仅约3.8%，对现有视频理解模型构成了严苛考验。其发布为衡量智能体视频推理的真实水平提供了标准化平台，在智能体评估与可解释性研究领域具有重要影响力。

当前挑战

AgentVidBench所解决的领域挑战主要在于传统视频问答基准仅依赖局部片段或语音转录，难以检测智能体对完整视频的持续注意力与多模态联合推理能力。该数据集通过设计抗时间跳跃的问题，迫使模型必须观看整段视频，这直接挑战了当前模型在长时序建模、多事件记忆与跨模态对齐方面的薄弱环节。在构建过程中，团队面临的核心挑战包括：如何从71个视频中抽取出100个需要全局感知而非局部定位才能回答的问题，以及如何设计26个具有高度混淆性的干扰选项以模拟真实世界的歧义场景。此外，确保每个问题所依赖的技能标签（如计数、音频定位）具有清晰的区分度，同时保持答案的唯一性与可解释性，也是一项精细的工程挑战。

常用场景

经典使用场景

AgentVidBench 是专为评估视频理解代理（Video Agent）在复杂视频问答任务中的综合能力而设计的标杆性数据集。其经典使用场景在于要求模型观看完整视频后，从26个选项中选择正确答案，题目设计刻意规避了基于时间戳跳跃的取巧策略，迫使模型具备持续感知、计数、OCR、视听定位和多步推理等核心技能。该数据集包含71段涵盖22种类型的独特视频和100道难度跨度从“简单”到“极难”的多选题，每条题目均附带详细的推理轨迹，为研究者提供了测试和开发具有类人感知与推理能力的视频代理的标准化测试平台。

衍生相关工作

AgentVidBench 的发布催生了一系列相关研究工作，有力推动了视频理解领域的发展。研究者们基于其结构化的推理轨迹字段，开始探索可解释视频代理的关键技术，如构建具备内部思考链的视觉-语言模型，使其在回答前生成明确的步骤规划与观察记录。受其代理复杂度分级体系的启发，学术界涌现了多个面向不同能力层级（尤其是L3、L4所代表的高阶规划与反思能力）的视频理解基准，如评估代理在长视频中执行开放式任务的MALMM-VideoBench。此外，该数据集的26选项随机基线（约3.8%）为后续的多模态大模型在视频问答上的性能改善提供了清晰的对比基准，众多模型在该数据集上报告了显著超越随机的准确率，验证了各种新型架构（如Video-LLaVA、CoVLM）的有效性。

数据集最近研究