VCapsBench
收藏arXiv2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/GXYM/VCapsBench
下载链接
链接失效反馈官方服务:
资源简介:
VCapsBench是一个大规模的细粒度视频字幕评价基准,由北京科技大学、腾讯和清华大学深圳国际研究生院的研究人员创建。该数据集包含5677个视频和109,796个问答对,涵盖了21个细粒度的维度,如相机运动、镜头类型等,对于视频生成至关重要。VCapsBench引入了三个指标(准确率、不一致率、覆盖率)和一个自动化的评估流程,利用大型语言模型(LLM)通过对比问答对分析来验证字幕质量。该数据集和代码在GitHub上可用。
VCapsBench is a large-scale fine-grained video captioning evaluation benchmark developed by researchers from University of Science and Technology Beijing, Tencent, and Tsinghua Shenzhen International Graduate School. This dataset contains 5,677 videos and 109,796 question-answer pairs, covering 21 fine-grained dimensions such as camera motion, shot type, etc., which are critical for video generation. VCapsBench introduces three metrics: accuracy, inconsistency rate, and coverage, as well as an automated evaluation pipeline that leverages large language models (LLMs) to verify caption quality through comparative analysis of question-answer pairs. The dataset and code are available on GitHub.
提供机构:
北京科技大学、腾讯、清华大学深圳国际研究生院
创建时间:
2025-05-29
原始信息汇总
VCapsBench数据集概述
数据集基本信息
- 名称:VCapsBench
- 描述:大规模细粒度视频字幕质量评估基准
- 托管平台:Hugging Face (somos99/VCapsBench)
数据内容
原始视频字幕数据
- 文件:VCapsbench_Caption_ALL.csv.zip
- 下载地址:https://huggingface.co/datasets/somos99/VCapsBench/blob/main/VCapsbench_Caption_ALL.csv.zip
视频字幕评估结果数据
-
Gemini-2.5-Pro-Preview作为评估专家
- 文件:gemini_eval_results.zip
- 下载地址:https://huggingface.co/datasets/somos99/VCapsBench/blob/main/gemini_eval_results.zip
-
GPT-4.1作为评估专家
- 文件:gpt_eval_results.zip
- 下载地址:https://huggingface.co/datasets/somos99/VCapsBench/blob/main/gpt_eval_results.zip
视频字幕生成脚本支持的VLM模型
- Qwen2.5-VL-72B
- Qwen2.5-VL-7B
- Qwen2VL-7B
- InternVL2.5-8B
- NVILA-8B
- LLaVA-Video-7B
- VideoLLaMA3-7B
评估脚本
- 主脚本:LLM4eval-m.py
- 执行脚本:eval.sh
- 支持模型:gemini/gpt4o
- 输出目录:eval_results-gemini-2.5
- 评估字幕列:gpt4o_cap, Qwen2.5-VL-72B, gemini2.5_pro-05-06, gemini2.5_pre_flash
评估结果可视化脚本
- RadarChartPlot.py
- 示例图:https://github.com/GXYM/VCapsBench/blob/main/imgs/iShot_2025-05-16_19.23.55.png
- WordLength.py
- 示例图:https://github.com/GXYM/VCapsBench/blob/main/imgs/iShot_2025-05-16_19.24.42.png
- wordlength_IR_CR_plot.py
- 示例图:https://github.com/GXYM/VCapsBench/blob/main/imgs/iShot_2025-05-16_19.24.18.png
其他信息
- 相关论文正在投稿中
搜集汇总
数据集介绍

构建方式
VCapsBench数据集的构建采用了多阶段精细标注流程,通过整合10个公开视频源的5,677个多样化视频,覆盖自然景观、人类活动等100余个子类别。研究团队设计了两套数据生产管线:首套管线利用多模态大模型生成视频描述文本,再通过大型语言模型转化为21个细粒度维度的QA对(如摄像机运动、物体空间关系);次套管线直接通过视频生成QA对。为确保数据质量,采用基于Gemini-1.5的自动化清洗流程进行去重和过滤,最终通过人工校验保留109,796组高质量三元组标注,平均每个视频标注19.3个QA对。
特点
该数据集的核心特色体现在三维度评估体系:准确性(AR)衡量描述与视频内容的一致性,不一致率(IR)检测描述自相矛盾的情况,覆盖率(CR)评估描述内容的完整度。数据覆盖4大主类别(内容实体、视觉构图、色彩光影、摄影氛围)和21个子维度,特别强化时空动态要素的标注,如区分'慢推镜'与'快摇镜'等专业摄影术语。相比传统图像描述数据集,其独特价值在于包含12.4%的4K超高清视频和27.3%的复杂场景视频,支持对多模态模型时空理解能力的细粒度测评。
使用方法
使用VCapsBench时需遵循标准化评估流程:首先用待测模型生成视频描述,随后将描述文本与预设QA对输入评估管线。大型语言模型会根据描述回答每个问题,系统自动统计AR/IR/CR指标。典型应用场景包括:1) 测评文本-视频生成模型的提示词理解能力;2) 优化视觉语言模型的细粒度描述性能;3) 验证动态场景理解的时空一致性。评估时建议采用交叉验证策略,每个描述需进行三次独立查询以降低LLM输出波动,最终取共识结果作为评估依据。
背景与挑战
背景概述
VCapsBench是由腾讯、清华大学深圳国际研究生院等机构的研究团队于2025年提出的首个大规模细粒度视频描述质量评估基准。该数据集包含5,677个多样化视频和109,796个经过人工验证的问答对,系统性地标注了21个对文本到视频生成至关重要的细粒度维度(如摄像机运动、镜头类型等)。作为视频理解与生成领域的重要基础设施,VCapsBench通过创新性地引入基于对比问答对的评估范式,解决了现有基准在时空动态细节评估方面的不足,为提升文本到视频模型的语义对齐能力提供了可操作的优化方向。
当前挑战
VCapsBench主要应对两大核心挑战:在领域问题层面,传统视频描述评估指标难以捕捉摄像机运动速度(如'慢速缩放'与'快速平移')和物体时空轨迹(如'左前景到中景')等对视频生成至关重要的动态语义信息;在构建过程层面,研究团队需克服细粒度维度标注的一致性难题,通过设计双管道QA对生成框架结合人工校正机制,确保109,796个问答对在21个维度上的标注质量,并开发基于大语言模型的自动化评估流程以解决人工评估不可扩展的问题。
常用场景
经典使用场景
在视频生成与理解领域,VCapsBench作为首个大规模细粒度视频字幕评估基准,其经典应用场景聚焦于评估视觉语言模型(VLMs)生成的视频字幕质量。通过系统标注的21个细粒度维度(如摄像机运动、镜头类型等),该数据集为文本到视频生成任务提供了精准的语义对齐验证。例如,在评估Sora等视频生成系统时,VCapsBench能够量化字幕对动态时空细节(如‘慢推镜头’与‘快摇镜头’的区分)的描述准确性,从而优化生成视频的视觉保真度。
衍生相关工作
VCapsBench的发布催生了一系列创新研究:基于其问答对架构,VideoQABench扩展了动态事件推理评估;TemporaBench则专注于长视频时序逻辑的细粒度标注。在方法层面,研究者受其启发提出了CLIP-VQA框架,将对比学习引入视频字幕评估。此外,该数据集还促进了评估范式的转变,如NeurIPS 2025最佳论文VideoFact将VCapsBench的维度体系应用于视频事实性验证,开创了生成内容可信度评估的新方向。
数据集最近研究
最新研究方向
随着多模态大模型技术的迅猛发展,视频描述生成任务在跨模态理解领域展现出前所未有的潜力。VCapsBench作为首个面向视频描述质量评估的大规模细粒度基准,通过构建包含5,677个视频和109,796个问答对的标注体系,系统性地解决了现有基准在时空细节评估方面的不足。该数据集创新性地设计了21个细粒度维度(如摄像机运动、镜头类型等)和三元判断机制,并引入准确性(AR)、不一致率(IR)和覆盖率(CR)三项指标,结合大语言模型构建自动化评估管道。当前研究热点集中在:1)基于对比问答分析的视频描述细粒度评估框架优化;2)时空动态要素的语义对齐技术;3)文本-视频生成模型的提示工程改进。该基准的建立为Sora等视频生成系统提供了关键的评估工具,推动了视觉语言模型在动态场景理解方面的突破性进展。
相关研究论文
- 1VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation北京科技大学、腾讯、清华大学深圳国际研究生院 · 2025年
以上内容由遇见数据集搜集并总结生成



