ScaleLong
收藏arXiv2025-05-30 更新2025-06-03 收录
下载链接:
https://github.com/multimodal-art-projection/ScaleLong
下载链接
链接失效反馈官方服务:
资源简介:
ScaleLong数据集是由字节跳动公司创建的,旨在评估多模态大型语言模型(MLLMs)在长视频理解中的多时间尺度能力。该数据集包含269个视频,每个视频平均时长为86分钟,每个视频都标注了4-8个问题,涵盖了四个时间尺度层次:剪辑(秒)、镜头(几十秒)、事件(分钟)和故事(小时)。数据集涵盖了5个主要类别和36个子类别,旨在对MLLMs在处理长视频中的不同时间尺度信息时进行全面的评估。
The ScaleLong Dataset was developed by ByteDance to assess the multi-temporal-scale capabilities of multimodal large language models (MLLMs) in long-form video understanding. It consists of 269 videos, with each video averaging 86 minutes in duration. Each video is annotated with 4 to 8 questions covering four hierarchical temporal scales: clip (seconds), shot (tens of seconds), event (minutes), and story (hours). The dataset encompasses 5 main categories and 36 subcategories, aiming to conduct a comprehensive evaluation of MLLMs when processing different temporal scale information in long videos.
提供机构:
字节跳动有限公司
创建时间:
2025-05-30
原始信息汇总
ScaleLong数据集概述
数据集简介
- 名称: ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding
- 目的: 专为评估多模态大语言模型(MLLMs)在长视频中的多时间尺度能力而设计
- 特点: 通过在同一视频内容中嵌入四个层次时间尺度(Clip/Shot/Event/Story)的问题,实现对不同时间粒度处理能力的评估
核心特性
-
多时间尺度查询
- 包含四个精确定义的时间尺度:Clip/Shot/Event/Story
- 保持叙事上下文一致的同时评估不同时间粒度
-
多样化视频内容与任务设计
- 涵盖5个主要视频类别(如体育/纪录片)和36个子类别
- 包含5种不同任务类型(如因果推理/动作理解)
数据集构成
- 视频数量: 269个
- 平均时长: 86分钟/视频
- 问题数量: 8个/视频(每个时间尺度2个)
评估结果
-
主要发现
- 准确率呈U型趋势:Clip和Story最高,Shot和Event最低
- 物体识别任务准确率最高,计数问题准确率最低
-
消融研究
- 增加视觉token数量(更多帧或更高分辨率)可提升性能
- 在固定token预算下,增加帧数比提高分辨率收益更大
-
错误分析
- 信息缺失和空间替换是主要错误类型
使用方法
-
安装
- 提供完整环境配置(参见installation.md)
-
数据集下载 bash huggingface-cli download --repo-type dataset --resume-download ScaleLong/ScaleLong --local-dir your_local_path
-
模型评估 python python inference.py --model_name="$MODEL_NAME" --question_file="$QUESTION_FILE" --model_path="$MODEL_PATH" --video_dir="$VIDEO_DIR" --image_dir="$IMAGE_DIR" --has_image="$HAS_IMAGE" --nframes="$NFRAMES" --output_file="$OUTPUT_FILE"
对比其他基准
- 独特优势: 提供视频内多时间尺度评估(IV-MTS)
- 标注方法: 结合自动标注(A)和人工标注(M)
- 覆盖范围: 涵盖多种视频类型(#Genres)
搜集汇总
数据集介绍

构建方式
在长视频理解领域,多时间尺度建模能力是评估模型性能的关键维度。ScaleLong创新性地采用视频内多时间尺度设计,通过精心筛选来自YouTube平台的269个平均时长达86分钟的视频,覆盖5大主类和36个子类。构建过程中,专业标注团队对每个视频进行完整观看后,针对Clip(秒级)、Shot(十秒级)、Event(分钟级)和Story(小时级)四个时间层级各设计2个问题,形成4-8个问题集。答案选项采用严格的三重干扰项设计机制,包含视觉替换、时序错位等10种干扰类型,并经过两轮质量检验确保问题的时间层级标注准确性和内容依赖性。
特点
作为首个实现视频内多时间尺度解耦的基准测试,ScaleLong最显著的特点是采用同源内容多层级提问机制。该数据集包含1,747个高质量问答对,每个视频的问题均匀覆盖四个时间层级,使模型在同一叙事内容上展现不同时间粒度的理解能力。数据分布呈现任务类型的平衡性设计,包含因果推理、动作理解等5类任务,且干扰项通过系统化设计形成认知梯度。特别值得注意的是,所有问题均需依赖视频视觉信息解答,有效规避纯文本模型的投机行为,为评估多模态大语言模型的时间感知能力提供了精准测量工具。
使用方法
使用ScaleLong进行模型评估时,研究者需按照视频内时间层级结构组织测试流程。基准测试支持以240p分辨率输入4-256帧的灵活配置,建议采用分层抽样策略确保各时间层级样本均衡。评估指标应分别计算Clip/Shot/Event/Story四个层级的准确率,并额外分析五类任务的表现差异。对于消融研究,可通过固定分辨率调整帧数或固定帧数调整分辨率的方式,探究视觉token分配策略对多尺度理解的影响。数据集的干扰项错误模式分析功能,可帮助定位模型在空间推理、时序理解等方面的特定缺陷。
背景与挑战
背景概述
ScaleLong是由字节跳动公司(ByteDance Inc.)于2025年推出的多时间尺度长视频理解基准测试数据集。该数据集旨在解决现有视频理解基准测试在评估多模态大语言模型(MLLMs)时,无法有效分离时间尺度与视频内容的问题。ScaleLong通过在同一视频内容中嵌入针对四个层次时间尺度(片段、镜头、事件和故事)的问题,实现了对模型在不同时间粒度上性能的直接比较。数据集包含269个长视频(平均时长86分钟),涵盖5个主要类别和36个子类别,每个视频配有4至8个精心设计的问题。这一创新设计为长视频理解领域的研究提供了重要的细粒度评估工具。
当前挑战
ScaleLong面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,长视频理解需要模型能够捕捉从秒级到小时级的多层次时间信息,而现有模型在中间时间尺度(如镜头和事件)上的表现明显较差,呈现出U形性能曲线。在构建过程中,挑战包括如何确保问题设计的多样性和平衡性,以及如何严格质量控制以避免信息泄漏和常识依赖。此外,数据集的标注过程需要处理视频内容的复杂性和多样性,确保每个问题的唯一性和准确性,同时设计具有迷惑性的干扰项以全面评估模型性能。
常用场景
经典使用场景
在长视频理解领域,ScaleLong数据集通过其独特的多时间尺度设计,为研究者提供了一个评估模型在不同时间粒度下表现的标准平台。该数据集包含269个平均时长达86分钟的视频,覆盖5大类别和36个子类别,每个视频配有4至8个问题,分别针对片段(秒级)、镜头(十秒级)、事件(分钟级)和故事(小时级)四个层次。这种设计使得研究者能够在同一视频内容下,直接比较模型在不同时间尺度上的表现,从而更准确地评估模型的时序理解能力。
解决学术问题
ScaleLong数据集解决了长视频理解中多时间尺度评估的难题。传统方法往往将不同时间尺度的问题分散在不同视频中,导致模型表现难以直接比较。ScaleLong通过在同一视频中嵌入多层次问题,有效解耦了时间尺度与视频内容的影响,使研究者能够精确评估模型在短时细节捕捉和长时叙事理解上的能力。实验表明,当前多模态大语言模型在片段和故事层次表现较好,而在镜头和事件层次存在明显性能下降,这一发现为模型优化提供了重要方向。
衍生相关工作
ScaleLong数据集的推出催生了一系列相关研究,特别是在多模态大语言模型的时序理解能力优化方面。基于该数据集,研究者提出了多种改进模型长视频理解能力的方法,如增加视觉令牌分配、优化时间注意力机制等。此外,该数据集的设计理念也被其他长视频理解基准(如LVBench、LongVideoBench)所借鉴,推动了整个领域在多层次时序评估上的标准化进程。
以上内容由遇见数据集搜集并总结生成



