IF-VidCap

github2025-10-22 更新2025-10-23 收录

下载链接：

https://github.com/NJU-LINK/IF-VidCap

下载链接

链接失效反馈

官方服务：

资源简介：

IF-VidCap是一个用于评估可控视频字幕的新基准测试，包含1,400个高质量样本。与现有的视频字幕或通用指令跟随基准不同，IF-VidCap采用了一个系统框架，在两个维度上评估字幕：格式正确性和内容正确性。数据集包含27种不同类型的约束，涵盖6个类别，平均每个指令有6个约束，视频时长平均20.5秒，涵盖13+个不同类别包括电影电视、动画、体育、自然等。

IF-VidCap is a novel benchmark for evaluating controllable video captioning, consisting of 1,400 high-quality samples. Unlike existing video captioning or general instruction-following benchmarks, IF-VidCap employs a systematic framework to assess captions across two dimensions: format correctness and content correctness. The dataset includes 27 distinct types of constraints spanning 6 categories, with an average of 6 constraints per instruction. The average duration of the videos is 20.5 seconds, and the dataset covers over 13 diverse categories including film and television, animation, sports, nature and more.

创建时间：

2025-09-29

原始信息汇总

IF-VidCap 数据集概述

数据集基本信息

数据集名称：IF-VidCap
核心目标：评估可控视频描述生成模型的指令遵循能力
样本数量：1,400个高质量样本
发布状态：已在Hugging Face平台发布

主要特点

首个指令遵循视频描述基准：包含1,400个复杂组合指令，与实际下游应用对齐
鲁棒评估协议：结合基于规则和基于LLM检查的多维评估
全面分析：评估20+个最先进模型并提供详细洞察
训练数据集：为细粒度基于指令的控制精心策划的数据集

数据集统计信息

视频时长：平均20.5秒（范围3秒至60秒）
约束类型：6个类别中的27种不同类型
平均约束数：每个指令包含6个约束
视频类别：13+个多样化类别，包括电影电视、动画、体育、自然等

评估维度

格式正确性：通过基于规则的检查项评估
内容正确性：通过开放式检查项评估

文件结构

IF-VidCap/ ├── videos/ # 视频文件 ├── annotation/ # 标注文件 ├── meta_prompt/ # 元提示模板 ├── models/ # 待测试模型 ├── utils/ # 工具函数 ├── inference/ # 推理脚本 ├── response/ # 模型响应 ├── generate_check_result.py # 生成检查结果脚本 └── metrics.py # 计算指标脚本

评估指标

ISR：指令满足率
CSR：约束满足率

主要发现

性能随模型规模扩展：在同系列模型中表现明显
开源模型媲美闭源模型：顶级开源模型与闭源对手相当
推理能力至关重要：对复杂指令遵循尤为关键
格式控制比内容控制更容易：在所有模型中表现一致

训练数据集（即将发布）

11K精选视频-描述对
46K视频-指令-响应三元组
涵盖所有27个约束类别的多样化指令类型

引用信息

bibtex @misc{li2025ifvidcapvideocaptionmodels, title={IF-VidCap: Can Video Caption Models Follow Instructions?}, author={Shihao Li and Yuanxing Zhang and Jiangtao Wu and Zhide Lei and Yiwen He and Runzhe Wen and Chenxi Liao and Chengkang Jiang and An Ping and Shuo Gao and Suhan Wang and Zhaozhou Bian and Zijun Zhou and Jingyi Xie and Jiayi Zhou and Jing Wang and Yifan Yao and Weihao Xie and Yingshui Tan and Yanghai Wang and Qianqian Xie and Zhaoxiang Zhang and Jiaheng Liu}, year={2025}, eprint={2510.18726}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.18726}, }

许可证

许可证类型：CC-BY-NC-SA-4.0

搜集汇总

数据集介绍

构建方式

在视频内容理解领域，IF-VidCap通过系统化框架构建了包含1,400个高质量样本的基准数据集。该数据集采用多维度标注策略，涵盖格式正确性与内容准确性双重评估维度，每个指令平均包含6项约束条件，视频时长分布在3至60秒之间。构建过程中精心设计了27种约束类型，覆盖影视、动画、体育等13个视频类别，通过规则脚本与大语言模型协同的验证机制确保标注质量。

特点

作为首个专注于指令跟随能力的视频描述基准，IF-VidCap呈现出鲜明的技术特征。数据集包含1,400个复合型指令样本，其评估体系创新性地融合了基于规则的格式检查与基于大语言模型的开放式内容验证。该基准特别强调对多模态大语言模型在可控视频描述任务中的细粒度评估，通过指令满意度与约束满意度双重指标，系统揭示模型在复杂语义理解与格式遵循方面的能力差异。

使用方法

研究者可通过Hugging Face平台直接获取IF-VidCap数据集，其文件结构清晰划分为视频资源、标注文件与元提示模板三大模块。使用流程包含模型响应生成与多维度评估两个核心阶段：首先利用提供的推理脚本获取模型输出，随后通过规则检查与语义验证的组合评估机制计算指令遵循度指标。该基准配套完整的评估代码库，支持研究者快速开展可控视频描述任务的系统性评测。

背景与挑战

背景概述

随着多模态大语言模型在视频描述任务中展现出卓越能力，实际应用场景往往需要模型遵循特定指令生成定制化描述，而非提供泛化性内容。南京大学LINK实验室于2025年推出的IF-VidCap基准数据集，首次系统性地构建了包含1,400个高质量样本的指令跟随型视频描述评估体系。该数据集通过融合格式正确性与内容准确性双重维度，填补了现有基准在可控视频描述能力评估上的空白，为多模态推理研究提供了重要基础设施。

当前挑战

当前视频描述领域面临的核心挑战在于模型对复杂组合指令的解析能力不足，现有基准大多侧重描述完整性而忽视指令跟随精度。在数据集构建过程中，需要克服多维度约束标注的复杂性，包括27种约束类型的系统分类与6类约束的并行标注。同时，评估体系需平衡规则检查与开放式语义验证，确保对时长跨度3至60秒的多样化视频内容进行有效度量。

常用场景

经典使用场景

在视频内容理解领域，IF-VidCap作为首个指令跟随式视频描述基准，其经典应用体现在对多模态大语言模型进行可控描述能力的系统评估。该数据集通过1,400个包含复杂组合指令的样本，要求模型根据特定格式与内容约束生成视频描述，例如按照预设句式结构描述特定对象行为，或遵循时间顺序叙述事件发展。这种评估范式突破了传统视频描述任务仅关注描述完整性的局限，为模型指令理解与执行能力提供了标准化测试环境。

衍生相关工作

该数据集的发布催生了系列创新研究，其中最具代表性的是基于Qwen架构开发的IF-Captioner模型。该7B参数模型在保持轻量级特性的同时，在格式控制任务中展现出与大型模型相当的性能。后续研究围绕数据集的评估框架展开扩展，衍生出结合规则引擎与大语言模型的混合评估方法，以及针对长视频时序理解的分段指令跟随技术，持续推动着可控视频描述技术的前沿发展。

数据集最近研究