TraceAV-Bench

github2026-05-09 更新2026-05-10 收录

下载链接：

https://github.com/Heinz217/TraceAV-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

TraceAV-Bench 是首个联合评估长音频-视觉视频中多跳轨迹推理和多模态幻觉鲁棒性的基准测试。它包含578个长视频（总计339.5小时）中的2,200个基于轨迹的多选题，分为4个评估维度和15个子任务。每个问题都基于一个明确的推理链，平均跨越3.68跳和15.1分钟的时间跨度。

TraceAV-Bench is the first benchmark that jointly evaluates multi-hop trajectory reasoning and multimodal hallucination robustness in long audio-visual videos. It comprises 2,200 trajectory-based multiple-choice questions spanning 578 long videos with a total duration of 339.5 hours, categorized into 4 evaluation dimensions and 15 subtasks. Each question is based on a clear reasoning chain, with an average of 3.68 hops and a temporal span of 15.1 minutes.

创建时间：

2026-05-07

原始信息汇总

TraceAV-Bench 数据集概述

基本信息

名称: TraceAV-Bench
全称: Benchmarking Multi-Hop Trajectory Reasoning over Long Audio-Visual Videos
发布平台: GitHub（代码与说明）、Hugging Face（完整数据集）
许可证: CC BY 4.0
论文: 即将发布（arXiv）

核心特点

超长视频: 平均视频时长约35分钟（范围606秒-8394秒），是唯一平均时长超过30分钟的基准
显式多跳轨迹: 每个问题都基于时间分散、跨模态的证据链，平均推理跳数为3.68跳，时间跨度15.1分钟
多维度评估: 包含4个评估维度和15个子任务

数据集规模

指标	数值
视频数量	578个
总时长	339.5小时
问题数量	2,200个选择题

评估维度与子任务

1. 音视频联合推理（AVR）- 7个子任务

子任务名称	缩写	视频数	问题数
信息检索	IR	140	140
时间排序	TS	95	97
实体追踪	ET	116	124
正向因果推理	FCR	73	73
反向因果推理	BCR	84	89
跨模态匹配	CMM	84	85
时空定位	SL	225	227

2. 视觉中心推理（VR）- 2个子任务

子任务名称	缩写	视频数	问题数
空间推理	SR	165	165
视觉计数	VC	219	226

3. 音频中心推理（AR）- 3个子任务

子任务名称	缩写	视频数	问题数
语音上下文	SC	121	130
环境声音	ES	88	88
背景音乐	BM	120	131

4. 多模态幻觉检测（MH）- 3个子任务

子任务名称	缩写	视频数	问题数
视觉到音频欺骗	V2A	218	230
音频到视觉欺骗	A2V	220	229
时间拼接谬误	TSF	151	166

数据格式

每个任务文件为JSON格式，包含以下关键字段：

task_type: 任务类型前缀（av_/v_/a_/mh_）
items: 问题列表，每个问题包含：
- question_id: 问题编号
- video_id: 视频ID
- question: 问题文本
- options: 四个选项（A-D）
- correct_options: 正确答案
- trajectory_with_timestamps: 显式推理链（包含事件ID、证据、标签、原因、时间戳等）
- difficulty: 难度等级（easy/medium/hard）
- hop_length_label: 跳数长度（short/medium/long）

数据集下载

完整数据集从 Hugging Face 下载：https://huggingface.co/datasets/Heinz217/TraceAV-Bench
包含15个任务文件及video_name_mapping.json
视频源需要根据映射从 OmniVideoBench 或 YouTube 获取

基准构建流程

视觉字幕生成: 分钟级视觉字幕+实体缓存实现长程身份追踪
音视频融合: 异步融合，对齐1分钟音频与视觉叙事
代理式问题生成: 事件分割、轨迹提案、基于显式多跳证据的MCQ生成
质量保证: 盲解验证、去重、LLM过滤等多阶段验证

搜集汇总

数据集介绍

构建方式

TraceAV-Bench的构建遵循一个三阶段半自动化流程，辅以严格的质量保证环节。首先，对长达数十分钟的视频进行分钟级视觉字幕生成，并构建实体缓存以实现长距离身份追踪。其次，执行异步音视觉融合，将每分钟的音频信息与视觉叙事对齐。接着，通过事件分割、轨迹提议和多跳证据链生成多项选择题，平均每条轨迹跨越3.68跳推理步骤。最后，经过多阶段验证，包括盲解算器验证、去重和基于大语言模型的过滤，确保数据的高质量和一致性。

特点

该数据集的核心特点在于其超长视频时长，平均约35分钟，总时长高达339.5小时，是目前唯一平均时长超过30分钟的基准测试。它提供了明确的多跳证据轨迹，每个问题都基于时间上分散的跨模态推理链。涵盖4个评估维度和15个子任务，包括音视觉联合推理、视觉与听觉中心推理以及专门的幻觉鲁棒性测试，例如视觉到音频欺骗和时序拼接谬误，全面挑战模型的时空理解与抗幻觉能力。

使用方法

使用TraceAV-Bench需先克隆仓库并下载Hugging Face上的15个任务文件与视频映射表。视频需从OmniVideoBench或YouTube获取，并统一命名存放。评估时，通过设置环境变量指定数据与视频路径，运行针对不同模型的启动脚本，例如Gemini或Qwen3-VL。每个任务文件采用JSON格式，包含问题、选项、正确答案及带有时间戳的轨迹，支持单轮或多轮选择题评估。建议参考eval目录下的文档以适配更多模型。

背景与挑战

背景概述

TraceAV-Bench是由研究人员于近期提出的首个面向长音频-视频多模态轨迹的多跳推理与幻觉鲁棒性联合评估基准。该数据集包含578段总时长逾339小时的超长视频（平均每段约35分钟），以及2200道基于显式多跳推理链的多选题，平均推理步长3.68跳、时间跨度15.1分钟。其核心研究问题在于突破现有模型对长时序、跨模态复杂事件理解的局限，系统性地评估模型在音视频联合推理、视觉/音频单模态推理及多模态幻觉检测四大维度（细分为15个子任务）的表现。该基准的发布填补了长视频多跳推理评测的空白，对推动多模态大模型在自动驾驶、视频监控、智能教育等领域的应用具有重要标杆意义。

当前挑战

该数据集面临的挑战主要体现在两个方面。在领域问题层面，现有模型难以有效处理超长视频中分散的跨模态证据链，需同时应对视觉与音频信息的异步融合、长时间跨度下的实体跟踪与因果推理，且易受视觉诱导音频欺骗、音频诱导视觉欺骗及时序拼接谬误等多模态幻觉的影响。在构建过程中，研究者需设计半自动流水线，确保每道题的推理轨迹由三阶段的视觉字幕生成、异步音视频融合及智能体式问题生成精确产出，再经多轮质检（包括盲解验证、去重及大模型过滤）消除歧义，这要求平衡规模化生成与人工校验成本间的张力。

常用场景

经典使用场景

在长视频多模态理解领域，TraceAV-Bench被设计为评估模型对跨音视频轨迹进行多跳推理能力的基石性基准。其经典使用场景聚焦于要求模型在平均时长超过35分钟的超长视频中，依据显式标注的、平均跳数达3.68步的推理链，从视觉与音频双模态信息中提取线索，完成时空定位、实体追踪、跨模态匹配以及因果推理等复杂任务。这一场景不仅考验模型对长程时序依赖的建模能力，更挑战其在分散于15分钟跨度内的多模态证据间建立逻辑关联的智能水平。

衍生相关工作

TraceAV-Bench的发布催生了若干具有深远影响的相关工作。其数据构建管线（分阶段视觉描述生成、异步音视频融合、智能体式命题生成及质量保障）启发了后续研究对大规模多模态基准制定方法的系统优化。基于该基准的各类多模态大模型（如Gemini、Qwen3-VL及Qwen3-Omni）的评估结果，直接推动了针对长视频推理的模型架构改进，尤其在增强长程时序注意力机制与跨模态幻觉抑制模块方面涌现了多项创新性工作。此外，该数据集的定义框架亦被借鉴用于构建针对视频叙事理解的新一代训练集，促进了从简单问答向复杂轨迹推理的能力迁移，成为多模态大模型认知能力评测的重要参照体系。

数据集最近研究