ShotBench

github2025-07-17 更新2025-07-18 收录

下载链接：

https://github.com/Vchitect/ShotBench

下载链接

链接失效反馈

官方服务：

资源简介：

ShotBench是一个用于评估视觉语言模型对电影语言理解的综合基准，包含超过3.5k专家注释的QA对，源自200多部备受好评的电影（主要是奥斯卡提名电影）的图像和视频片段，涵盖八个不同的电影摄影维度。

ShotBench is a comprehensive benchmark for evaluating the visual language understanding of language models, containing over 3.5k expert-annotated QA pairs derived from image and video clips of more than 200 highly acclaimed films (primarily Oscar-nominated films), covering eight distinct dimensions of cinematic cinematography.

创建时间：

2025-06-25

原始信息汇总

ShotBench数据集概述

数据集简介

名称：ShotBench
类型：视觉语言模型(VLM)评估基准
领域：电影摄影语言理解
数据来源：200+部奥斯卡提名电影的图像和视频片段

核心内容

数据规模：包含超过3.5k专家标注的QA对
覆盖维度：8个电影摄影维度
- 镜头大小(SS)
- 镜头构图(SF)
- 摄像机角度(CA)
- 镜头尺寸(LS)
- 灯光类型(LT)
- 光照条件(LC)
- 镜头构图(SC)
- 摄像机运动(CM)

评估结果

测试模型：24个领先的VLM（包括开源和专有模型）
最佳表现：
- GPT-4o：平均准确率59.3%
- ShotVL-7B：平均准确率70.1%（当前SOTA）

数据获取

HuggingFace地址：
- ShotBench测试集：https://huggingface.co/datasets/Vchitect/ShotBench
- ShotQA-70k数据集：https://huggingface.co/datasets/Vchitect/ShotQA

引用格式

bibtex @misc{ liu2025shotbench, title={ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models}, author={Hongbo Liu and Jingwen He and Yi Jin and Dian Zheng and Yuhao Dong and Fan Zhang and Ziqi Huang and Yinan He and Yangguang Li and Weichao Chen and Yu Qiao and Wanli Ouyang and Shengjie Zhao and Ziwei Liu}, year={2025}, eprint={2506.21356}, achivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.21356}, }

搜集汇总

数据集介绍

构建方式

ShotBench数据集的构建基于对200余部奥斯卡提名影片的图像和视频片段的深度分析，通过专家标注的方式生成了超过3.5k个高质量问答对。这些问答对涵盖了八个核心电影摄影维度，包括镜头大小、镜头构图、摄像机角度等，确保了数据集的全面性和专业性。构建过程中严格遵循了电影语言学的学术标准，为视觉语言模型在电影理解领域提供了可靠的评估基准。

特点

该数据集以其精细的电影语言标注体系和广泛的覆盖范围脱颖而出，不仅包含静态图像分析，还涉及动态视频片段的理解。数据来源均为专业影视作品，确保了内容的艺术性和技术性。特别值得注意的是，数据集揭示了当前视觉语言模型在电影理解上的显著不足，即使是顶尖模型GPT-4o的平均准确率也不足60%，这为相关研究提供了明确的方向指引。

使用方法

研究人员可通过Hugging Face平台直接获取数据集，配套的评估代码支持多GPU并行计算。使用流程包括数据下载、模型评估和指标计算三个主要步骤，其中模型评估支持ShotVL系列及其他主流视觉语言模型。数据集特别设计了标准化评分体系，便于不同模型间的横向比较，为电影理解领域的研究提供了便捷可靠的实验平台。

背景与挑战

背景概述

ShotBench是由上海人工智能实验室、同济大学、香港中文大学及南洋理工大学等机构的研究团队于2025年推出的专业视觉-语言模型评估基准。该数据集聚焦电影艺术领域，旨在系统评估模型对电影语言的深度理解能力，其核心研究问题在于解决现有视觉-语言模型在电影摄影维度（如镜头构图、灯光条件、摄影机运动等八项专业指标）上的认知局限。基于200余部奥斯卡提名影片构建的3.5千组专家标注问答对，该数据集为多模态模型在电影美学理解领域建立了首个量化评估标准，推动了视觉-语言模型在专业垂直领域的应用边界拓展。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，电影语言的复杂语义（如镜头隐喻、光影叙事等专业概念）要求模型具备跨模态的细粒度推理能力，现有最优模型GPT-4o平均准确率不足60%，暴露出现有技术在艺术领域认知的显著不足；在构建过程中，需协调电影学者与AI研究者的知识体系差异，确保3.5千组标注数据在八个摄影维度上的专业性与一致性，同时处理视频片段的多模态对齐与时空语义标注等技术难题。

常用场景

经典使用场景

ShotBench数据集在视觉语言模型（VLM）领域中被广泛用于评估模型对电影语言的理解能力。通过包含超过3.5k专家标注的问答对，该数据集覆盖了八种不同的电影摄影维度，为研究人员提供了一个标准化的测试平台。经典使用场景包括测试模型在镜头大小、镜头构图、镜头运动等维度的表现，从而评估其细粒度的视觉理解能力。

衍生相关工作

ShotBench数据集衍生了多项经典研究工作，其中最突出的是ShotQA-70k多模态数据集和ShotVL模型。ShotQA-70k作为首个专注于电影摄影理解的大规模数据集，为后续研究提供了丰富的数据资源。而ShotVL模型通过监督微调（SFT）和组相对策略优化（GRPO）技术，在ShotBench上达到了最先进的性能，成为该领域的标杆模型。

数据集最近研究