CineBench

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/FENG-X3/CineBench

下载链接

链接失效反馈

官方服务：

资源简介：

CineBench 是一个面向电影语言理解与生成评测的双语基准（中文/英文），用于系统评估多模态大模型在镜头语言层面的能力，而不仅是内容识别能力。数据规模：446 个连续视频片段（`movie` 375 + `AI` 71），评测维度：Cinematography / Lighting / Color / Emotional Cue，题目规模：5,877 条多项选择题（论文版本），资源组成：视频片段、双语 benchmark、训练/测试拆分表、可复现评测代码。

CineBench is a bilingual (Chinese-English) benchmark designed for film language understanding and generation evaluation, which systematically assesses the capabilities of multimodal large language models in terms of cinematic shot language rather than mere content recognition. Data Scale: 446 consecutive video clips, with 375 for `movie` and 71 for `AI`. Evaluation Dimensions: Cinematography, Lighting, Color, and Emotional Cue. Question Scale: 5,877 multiple-choice questions (paper version). Resource Components: video clips, bilingual benchmark, train/test split tables, and reproducible evaluation code.

创建时间：

2026-03-31

原始信息汇总

CineBench 数据集概述

数据集简介

CineBench 是一个面向电影语言理解与生成评测的双语基准（中文/英文），用于系统评估多模态大模型在镜头语言层面的能力，而不仅是内容识别能力。

核心数据规模

视频片段总数：446 个连续视频片段
视频来源构成：
- movie：375 个片段
- AI：71 个片段
评测题目规模：5,877 条多项选择题（论文版本）

评测维度

数据集包含以下四个核心评测维度：

Cinematography
Lighting
Color
Emotional Cue

资源组成

数据集提供以下可复现的资源：

视频片段：位于 AI/ 和 movie/ 目录。
双语基准表：
- 英文训练/测试基准表：CineBench_en_train.xlsx, CineBench_en_test.xlsx
- 中文训练/测试基准表：CineBench_zh_train.xlsx, CineBench_zh_test.xlsx
训练/测试拆分表。
可复现评测代码：位于 pipeline/ 目录。
论文补充材料：CineBench_Supplementary Material.pdf

项目结构

AI/：AI生成的视频片段
movie/：电影视频片段
pipeline/：评测代码和模型适配器
docs/figures/：论文中使用的关键图示

图示说明（来自论文）

数据整理流程：docs/figures/workflow.png
基准任务设计：docs/figures/Tasks.png
模型性能概览：docs/figures/results.png
生成示例：docs/figures/generation.png

快速评测示例

bash cd pipeline python eval.py --model qwen --annotation_file cb_en_train.json --max_num_frames 16 --seed 42

完整的评测细节请参见 pipeline/README.md。

搜集汇总

数据集介绍

构建方式

在电影语言理解领域，CineBench数据集的构建遵循严谨的学术流程。研究团队从375个电影片段和71个AI生成片段中，精心选取了446个连续视频剪辑作为基础素材。这些素材经过专业标注，围绕镜头语言的核心维度——摄影、灯光、色彩和情感线索——进行系统化处理，最终形成了包含5,877项双语多项选择题的评测集合。整个构建过程确保了数据在视觉连贯性和语义深度上的代表性，为多模态模型的能力评估提供了可靠基础。

特点

CineBench的显著特点在于其专注于电影镜头语言的双语评测框架。数据集不仅涵盖传统电影片段，还创新性地引入了AI生成内容，从而扩展了评测场景的多样性。其题目设计深入摄影、灯光、色彩及情感线索四个专业维度，超越了常规的内容识别任务，致力于评估模型对视觉叙事元素的深层理解。这种结构化的双语基准为跨语言的多模态研究提供了标准化且可复现的评测环境。

使用方法

使用CineBench进行模型评估时，研究人员可依据提供的训练与测试拆分表，分别加载中文或英文版本的评测数据。通过配套的评测代码库，用户能够便捷地适配不同多模态模型，并执行标准化的能力测试。评估过程支持关键参数的灵活配置，例如最大帧数设置，以确保在不同计算资源下的可行性。这种开箱即用的设计极大简化了评测流程，促进了研究成果的公平比较与复现。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，模型在视觉内容识别方面已取得显著进展，但在更深层次的语义理解，特别是电影艺术语言层面，仍存在评估空白。CineBench数据集应运而生，由研究团队于近期创建，旨在构建一个面向电影语言理解与生成评测的双语基准。该数据集聚焦于镜头语言能力，涵盖摄影、灯光、色彩及情感线索四个核心维度，通过精心设计的多项选择题与连续视频片段，系统评估模型对电影叙事美学的解析与生成潜力。其双语特性进一步拓展了跨文化语境下的评测范围，为电影计算分析与生成式人工智能领域提供了重要的标准化工具。

当前挑战

在电影语言理解领域，核心挑战在于超越单纯的内容识别，要求模型深入解析镜头语言的艺术意图与情感表达，这对多模态模型的语义融合与上下文推理能力提出了更高要求。CineBench构建过程中，挑战主要体现在高质量数据集的构建上：需从大量电影素材中筛选出具有代表性且连续的片段，确保其在摄影、灯光、色彩和情感线索等维度上具有清晰的标注边界；同时，设计兼具专业性与可评估性的双语多项选择题，需平衡艺术主观性与客观评测标准，避免歧义并保证跨语言一致性。此外，区分真实电影片段与AI生成内容，也为数据集的多样性与评测可靠性增添了复杂性。

常用场景

经典使用场景

在电影语言理解与生成领域，CineBench数据集被广泛用于评估多模态大模型在镜头语言层面的深层理解能力。该数据集通过精心设计的连续视频片段和多项选择题，系统考察模型在摄影、灯光、色彩及情感线索四个维度的表现，为研究者提供了一个标准化、可复现的评测平台，推动了电影语言分析从内容识别向艺术表达理解的跨越。

衍生相关工作

围绕CineBench数据集，学术界衍生出一系列经典研究工作，包括基于镜头语言的多模态预训练框架、电影风格迁移模型以及可控视频生成算法。这些工作不仅扩展了数据集的适用边界，还推动了电影语言分析在生成式人工智能中的创新应用，为构建更智能、更具艺术感知的视觉系统奠定了理论基础。

数据集最近研究