IF-VidCap
收藏IF-VidCap 数据集概述
数据集基本信息
- 数据集名称:IF-VidCap
- 核心目标:评估可控视频描述生成模型的指令遵循能力
- 样本数量:1,400个高质量样本
- 发布状态:已在Hugging Face平台发布
主要特点
- 首个指令遵循视频描述基准:包含1,400个复杂组合指令,与实际下游应用对齐
- 鲁棒评估协议:结合基于规则和基于LLM检查的多维评估
- 全面分析:评估20+个最先进模型并提供详细洞察
- 训练数据集:为细粒度基于指令的控制精心策划的数据集
数据集统计信息
- 视频时长:平均20.5秒(范围3秒至60秒)
- 约束类型:6个类别中的27种不同类型
- 平均约束数:每个指令包含6个约束
- 视频类别:13+个多样化类别,包括电影电视、动画、体育、自然等
评估维度
- 格式正确性:通过基于规则的检查项评估
- 内容正确性:通过开放式检查项评估
文件结构
IF-VidCap/ ├── videos/ # 视频文件 ├── annotation/ # 标注文件 ├── meta_prompt/ # 元提示模板 ├── models/ # 待测试模型 ├── utils/ # 工具函数 ├── inference/ # 推理脚本 ├── response/ # 模型响应 ├── generate_check_result.py # 生成检查结果脚本 └── metrics.py # 计算指标脚本
评估指标
- ISR:指令满足率
- CSR:约束满足率
主要发现
- 性能随模型规模扩展:在同系列模型中表现明显
- 开源模型媲美闭源模型:顶级开源模型与闭源对手相当
- 推理能力至关重要:对复杂指令遵循尤为关键
- 格式控制比内容控制更容易:在所有模型中表现一致
训练数据集(即将发布)
- 11K精选视频-描述对
- 46K视频-指令-响应三元组
- 涵盖所有27个约束类别的多样化指令类型
引用信息
bibtex @misc{li2025ifvidcapvideocaptionmodels, title={IF-VidCap: Can Video Caption Models Follow Instructions?}, author={Shihao Li and Yuanxing Zhang and Jiangtao Wu and Zhide Lei and Yiwen He and Runzhe Wen and Chenxi Liao and Chengkang Jiang and An Ping and Shuo Gao and Suhan Wang and Zhaozhou Bian and Zijun Zhou and Jingyi Xie and Jiayi Zhou and Jing Wang and Yifan Yao and Weihao Xie and Yingshui Tan and Yanghai Wang and Qianqian Xie and Zhaoxiang Zhang and Jiaheng Liu}, year={2025}, eprint={2510.18726}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.18726}, }
许可证
- 许可证类型:CC-BY-NC-SA-4.0




