ShotQA
收藏arXiv2025-06-26 更新2025-06-28 收录
下载链接:
https://vchitect.github.io/ShotBench-project/
下载链接
链接失效反馈官方服务:
资源简介:
ShotQA是一个大规模的多模态数据集,旨在促进视觉语言模型对电影语言的深入理解。该数据集由约7万对高质量的电影图像和视频片段中的问答对组成,涵盖8个核心的电影摄影维度,包括镜头大小、镜头构图、相机角度、镜头尺寸、光照类型、光照条件、构图和相机运动。数据集的构建过程包括数据收集与预处理、标注员培训、问答标注和验证。该数据集可以用于训练和评估视觉语言模型,以提高模型对电影摄影技巧的理解能力。
ShotQA is a large-scale multimodal dataset designed to advance the in-depth understanding of cinematography by vision-language models. It consists of approximately 70,000 high-quality question-answer pairs paired with movie images and video clips, covering 8 core cinematography dimensions including shot scale, shot composition, camera angle, shot size, lighting type, lighting conditions, framing, and camera movement. The dataset construction process includes data collection and preprocessing, annotator training, question-answer annotation, and validation. This dataset can be utilized to train and evaluate vision-language models, thereby enhancing their ability to comprehend cinematographic techniques.
提供机构:
上海人工智能实验室
创建时间:
2025-06-26
原始信息汇总
ShotBench 数据集概述
数据集简介
- 名称: ShotBench
- 领域: 视觉语言模型(VLMs)的电影语言理解评估
- 数据规模: 超过3.5k专家标注的QA对
- 数据来源: 200+部奥斯卡提名电影的图像和视频片段
- 覆盖维度: 8个电影摄影核心维度
核心维度
- 镜头尺寸 (Shot Size)
- 镜头构图 (Framing)
- 摄像机角度 (Camera Angle)
- 镜头焦距 (Lens Size)
- 灯光类型 (Lighting Type)
- 灯光条件 (Lighting Condition)
- 画面构图 (Composition)
- 摄像机运动 (Camera Movement)
数据集特点
- 首个大规模电影摄影理解多模态数据集ShotQA(约70k高质量QA对)
- 包含24个主流VLMs的评估结果
- 提出新型VLM模型ShotVL(使用SFT和GRPO训练)
评估结果
- 最佳开源模型: Qwen2.5-VL-72B-Instruct(59.1%平均准确率)
- 最佳商业模型: GPT-4o(59.3%平均准确率)
- ShotVL-7B模型: 70.1%平均准确率(SOTA)
关键发现
- 约半数模型总体准确率低于50%
- 开源与商业模型性能差异不大
- 同系列中更大模型通常表现更好
- 强模型在所有维度表现均衡
- SFT+GRPO训练策略效果最佳
相关资源
- 论文: arXiv:2506.21356
- 代码: 未提供具体链接
- 数据集: 需从Huggingface下载完整版本
搜集汇总
数据集介绍

构建方式
ShotQA数据集的构建过程体现了严谨的学术态度与专业化的数据处理流程。研究团队从243部获得奥斯卡最佳摄影奖提名或获奖的影片中精选素材,通过四阶段标准化流程:首先运用LAION美学评估器筛选高质量画面,采用TransNetV2进行视频镜头分割;随后为标注人员提供包含8个核心维度的专业摄影知识培训;继而基于ShotDeck平台元数据构建模板化问题,并由专业摄影师复核标注;最终通过多轮专家审计确保3572个QA对达到90%以上的标注准确率。这种融合自动化处理与人工专家校验的混合方法,有效平衡了数据规模与标注质量。
使用方法
该数据集支持两种典型应用范式:在模型微调场景下,研究者可利用其70k QA对进行监督学习,特别推荐采用两阶段训练策略——先通过SFT建立基础视觉-语言对齐,再使用GRPO强化专业推理能力;在评估基准场景下,建议按照ShotBench的标准化流程,以维度划分的测试子集全面检验模型对电影语法的理解深度。为提升使用效果,应注意视频数据需以12fps采样率处理,并配合专业电影术语词典进行结果解析,这种多模态协同分析方法能显著提升模型在镜头运动识别等复杂任务中的表现。
背景与挑战
背景概述
ShotQA数据集由上海人工智能实验室、香港中文大学和南洋理工大学等机构的研究团队于2025年联合推出,旨在解决视觉语言模型在电影摄影语言理解方面的关键挑战。作为首个专注于电影摄影技术理解的大规模多模态数据集,ShotQA包含约7万组专业标注的问答对,数据源自243部奥斯卡提名影片,涵盖镜头尺寸、构图、灯光类型等8个核心电影摄影维度。该数据集的建立填补了现有视觉语言模型在艺术性视觉理解方面的空白,为AI辅助电影制作和视频生成提供了重要的基准工具。
当前挑战
ShotQA面临的主要挑战体现在两个方面:在领域问题层面,需要解决视觉语言模型对专业电影术语的细粒度识别难题,例如区分中景(Medium Shot)与中近景(Medium Close-up)等相似构图;在构建过程中,需克服高质量电影数据标注的专业壁垒,包括动态镜头运动识别、复杂光影条件判断等需要电影专业知识的技术难点。特别是相机运动维度成为最大挑战,现有模型的识别准确率普遍低于40%,反映出空间推理能力的显著不足。
常用场景
经典使用场景
ShotQA数据集在电影视觉语言理解领域具有广泛的应用价值,尤其在评估和提升视觉语言模型(VLMs)对电影镜头语言的理解能力方面表现突出。该数据集通过精心设计的问答对,覆盖了电影镜头尺寸、构图、镜头角度、镜头大小、灯光类型、灯光条件、镜头运动和镜头构图等八个核心维度,为研究者提供了一个全面的评估框架。其经典使用场景包括电影镜头语言的自动分类、视觉语言模型的微调以及电影制作中的AI辅助决策。
解决学术问题
ShotQA数据集解决了视觉语言模型在电影镜头语言理解方面的多个关键学术问题。首先,它填补了现有基准测试在电影语言理解方面的空白,为研究者提供了一个标准化的评估工具。其次,通过覆盖八个核心电影语言维度,该数据集帮助研究者识别模型在细粒度视觉术语对齐、空间感知和视觉推理等方面的不足。此外,ShotQA还为研究视觉语言模型在专业领域的应用提供了宝贵的数据支持,推动了AI在电影制作中的实际应用。
实际应用
在实际应用中,ShotQA数据集为电影制作和视觉语言模型的开发提供了重要支持。在电影制作领域,该数据集可以用于训练AI系统,帮助导演和摄影师更好地理解和应用电影镜头语言。在教育领域,ShotQA可以作为教学工具,帮助学生和初学者掌握电影制作的基本技巧。此外,该数据集还可以用于开发智能视频编辑工具,自动识别和优化电影镜头的视觉效果,提升视频内容的质量和吸引力。
数据集最近研究
最新研究方向
近年来,ShotQA数据集在视觉语言模型(VLMs)的影视语言理解领域引起了广泛关注。该数据集专注于电影摄影语言的细粒度解析,涵盖了镜头大小、构图、镜头角度、镜头尺寸、灯光类型、灯光条件、镜头运动和镜头构图等八个核心维度。通过构建包含70,000个高质量问答对的大规模多模态数据集,ShotQA为模型提供了丰富的专业标注数据,显著提升了模型对电影摄影语言的解析能力。前沿研究主要集中在利用监督微调(SFT)和组相对策略优化(GRPO)技术优化模型性能,例如ShotVL模型在ShotBench基准测试中实现了65.1%的平均准确率,超越了包括GPT-4o在内的现有开源和专有模型。这一进展不仅推动了AI在影视生成和理解中的应用,还为多模态推理研究提供了新的方向。
相关研究论文
- 1ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



