CAPability

github2025-04-19 更新2025-04-20 收录

下载链接：

https://github.com/ali-vilab/CAPability

下载链接

链接失效反馈

官方服务：

资源简介：

CAPability是一个全面的多视角视觉字幕基准，用于评估12个维度跨越六个关键视角的字幕生成。我们收集了近11K人工标注的图像和视频，带有视觉元素标注，以评估生成的字幕。CAPability使用F1分数稳定评估字幕的正确性和全面性。通过将标注转换为问答对，我们进一步引入了一个启发式度量，即“知道但无法表达”（$Kar{T}$），表明了问答和字幕能力之间的显著性能差距。我们的工作首次全面分析了MLLMs的字幕能力，识别了它们在不同维度上的优势和弱点，指导未来研究增强特定方面的能力。

CAPability is a comprehensive multi-perspective visual captioning benchmark designed to evaluate caption generation across 12 dimensions from six key perspectives. We collected nearly 11K manually annotated images and videos with visual element annotations for evaluating generated captions. CAPability uses F1 scores to robustly evaluate the correctness and comprehensiveness of captions. By converting annotations into question-answer pairs, we further introduce a heuristic metric named "Know but Cannot Express" ($Kar{T}$), which uncovers the notable performance gap between visual question answering and captioning capabilities. Our work presents the first comprehensive analysis of the captioning capabilities of MLLMs, identifying their strengths and weaknesses across different dimensions to guide future research on enhancing specific capability aspects.

创建时间：

2025-04-18

原始信息汇总

CAPability 数据集概述

基本信息

任务类型: VideoQA, Multi-Modal
许可证: Apache 2.0
项目页面: https://capability-bench.github.io/
论文链接: https://arxiv.org/pdf/2502.14914
Hugging Face数据集: https://huggingface.co/datasets/lntzm/CAPability
排行榜: https://capability-bench.github.io/#leaderboard

数据集简介

CAPability是一个全面的多视角视觉字幕基准，用于评估12个维度的视觉字幕生成能力，涵盖六个关键视角。数据集包含近11K人工标注的图像和视频，带有视觉元素标注，用于评估生成的字幕。CAPability使用F1分数稳定评估字幕的正确性和全面性。

数据集特点

多维度评估: 涵盖12个维度的视觉字幕评估。
全面性: 评估字幕的正确性和全面性。
多模态: 包含图像和视频数据。
标注丰富: 包含视觉元素标注和QA对转换。

数据集使用

许可证限制: 仅用于学术研究，禁止商业用途。
版权声明: 所有图像和视频的版权归媒体所有者所有。
侵权处理: 如有侵权，请联系liuzhihang@mail.ustc.edu.cn。

评估流程

推理: 提供图像和视频的推理提示。
评估: 使用GPT-4-Turbo比较生成字幕与标注。
排行榜: 支持通过lmms-eval或直接提交模型响应到排行榜。

实验结果

评估结果: 包含不同MLLMs的评估结果和示例。
可视化: 提供雷达图和评估示例。

引用

bibtex @article{liu2025good, title={What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness}, author={Liu, Zhihang and Xie, Chen-Wei and Wen, Bin and Yu, Feiwu and Chen, Jixuan and Zhang, Boqiang and Yang, Nianzu and Li, Pandeng and Li, Yinglu and Gao, Zuan and Zheng, Yun and Xie, Hongtao}, journal={arXiv preprint arXiv:2502.14914}, year={2025} }

搜集汇总

数据集介绍

构建方式

CAPability数据集的构建基于对现代多模态大语言模型（MLLMs）在视觉描述任务中表现的深入分析。研究团队精心筛选了近11,000张人类标注的图像和视频，覆盖了12个维度的视觉元素，旨在全面评估生成描述的准确性和完整性。通过将标注转换为问答对，数据集进一步引入了启发式度量方法，以揭示模型在问答和描述能力之间的显著差距。

特点

CAPability数据集以其多视角评估框架脱颖而出，涵盖了六个关键视角下的12个评估维度，能够全面分析MLLMs在视觉描述任务中的表现。数据集不仅提供了丰富的视觉元素标注，还通过F1分数稳定评估描述的准确性和完整性。此外，数据集支持启发式度量方法，为研究者提供了更深入的性能分析工具。

使用方法

使用CAPability数据集进行模型评估时，研究者需按照提供的提示模板生成图像和视频的描述。对于静态图像，描述需涵盖对象细节、场景、拍摄角度和风格等；对于视频，则需按顺序描述事件、对象行为、场景变化和镜头运动等。评估过程利用GPT-4-Turbo比较生成描述与标注，研究者可通过提供的脚本进行批量评估，并将结果提交至官方排行榜以进行比较分析。

背景与挑战

背景概述

CAPability数据集由阿里视觉实验室（Ali-VILab）联合多所高校的研究团队于2025年推出，旨在解决多模态大语言模型（MLLMs）时代视觉描述任务的评估瓶颈。传统基准依赖简略的参考描述和单一指标，难以全面衡量模型生成的详细描述质量。该数据集创新性地构建了覆盖6大视角、12个评估维度的多层级标注体系，包含近1.1万张人类标注的图像与视频，通过F1分数量化描述的正确性与完备性。其首创的'知而不言'（K̄T）指标通过问题回答转换，揭示了模型在视觉理解与语言表达间的能力断层，为提升MLLMs的细粒度语义生成提供了重要研究范式。

当前挑战

该数据集面临的领域挑战主要体现在突破传统视觉描述评估的局限性：现有基准无法有效捕捉现代MLLMs生成的复杂语义结构，且评估维度多局限于物体层面而忽略场景、视角等宏观特征。在构建过程中，研究团队需攻克多模态标注一致性难题——如何设计跨图像与视频的统一评估框架，确保12个维度标注标准的科学性与可扩展性。此外，将视觉元素转化为可量化的QA对时，需平衡标注粒度与评估效率，避免引入人工偏见。动态视频描述评估还需解决时序动作分解与空间关系同步建模的双重挑战。

常用场景

经典使用场景

在视觉描述生成领域，CAPability数据集通过其多维度评估框架，为研究者提供了一个全面评估模型生成描述正确性和详尽性的平台。该数据集涵盖了12个关键维度，包括对象属性、场景描述、拍摄角度等，使得模型能够在静态图像和动态视频两个模态上进行细致的性能测试。这种多维度的评估方式，特别适合用于测试和提升多模态大语言模型（MLLMs）在复杂视觉场景下的描述能力。

衍生相关工作

CAPability数据集的推出，激发了多项相关研究，特别是在多模态模型评估和优化领域。基于该数据集，研究者们开发了多种新型评估指标和优化方法，如基于问答对的启发式评估指标K̄T。此外，该数据集还促进了多模态模型在视觉描述生成领域的性能提升，推动了相关技术的快速发展。

数据集最近研究