CapArena

Name: CapArena
Creator: 南京大学
Published: 2025-03-16 10:56:09
License: 暂无描述

arXiv2025-03-16 更新2025-03-19 收录

下载链接：

https://caparena.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

CapArena是由南京大学等机构创建的一个图像字幕评估平台，包含6000多对图像字幕对比和高质量的人类偏好投票。该数据集旨在评估详细图像字幕的性能，涵盖了多种场景的图像，使用了多种视觉语言模型生成详细描述，通过人类注释来评价这些描述的质量。

CapArena is an image captioning evaluation platform developed by Nanjing University and other institutions, which contains over 6,000 image-caption pairs and high-quality human preference votes. This dataset aims to evaluate the performance of detailed image captioning: it covers images from diverse scenarios, uses multiple visual-language models to generate detailed descriptions, and assesses the quality of these descriptions via human annotations.

提供机构：

南京大学

创建时间：

2025-03-16

搜集汇总

数据集介绍

构建方式

CapArena数据集的构建基于大规模的人类偏好标注，采用了成对比较的评估范式。研究者从DOCCI数据集中选取了高分辨率图像，并为每张图像生成了详细的描述。通过设计10种不同的提示词，确保生成的描述在质量和长度上具有一致性。随后，研究者邀请了专业标注员对14种先进的视觉-语言模型（VLMs）生成的描述进行成对比较，共收集了超过6000组高质量的人类偏好投票。这一过程不仅确保了数据的多样性和准确性，还为模型的详细描述能力提供了可靠的基准。

特点

CapArena数据集的特点在于其专注于详细图像描述的评估，涵盖了广泛的图像场景和模型类型。数据集中的图像来自DOCCI数据集，涵盖了日常生活中的多种场景，确保了数据的多样性和代表性。此外，CapArena通过成对比较的方式，能够更准确地反映模型在生成详细描述时的优劣。数据集还引入了人类基线描述，使得模型的表现可以直接与人类水平进行对比。这一设计使得CapArena成为评估VLMs在详细图像描述任务中表现的理想工具。

使用方法

CapArena数据集的使用方法主要包括模型评估和自动度量分析。首先，研究者可以通过CapArena平台对不同的VLMs进行成对比较，生成模型排名。其次，基于CapArena的人类偏好数据，研究者可以评估传统的和最新的图像描述度量方法，如BLEU、METEOR、CLIPScore等，以及VLM-as-a-Judge方法。这些度量方法可以帮助研究者更好地理解模型在详细描述任务中的表现，并识别现有度量的系统偏差。此外，CapArena还提供了CapArena-Auto，一个自动化评估工具，能够以较低的成本快速评估模型的详细描述能力。

背景与挑战

背景概述

CapArena数据集由南京大学国家软件新技术重点实验室的研究团队于2025年创建，旨在解决大语言模型（LLM）时代下图像描述生成（Image Captioning）的评估难题。随着视觉-语言模型（VLMs）的快速发展，现有的评估方法难以准确衡量模型生成的详细图像描述的质量。CapArena通过构建一个包含6000多对图像描述对比和高质量人类偏好投票的平台，首次大规模评估了14种先进VLMs的表现。研究结果表明，领先模型如GPT-4o在详细描述任务上已达到甚至超越人类水平，而大多数开源模型则表现滞后。该数据集为图像描述领域提供了新的评估基准，推动了该领域的研究进展。

当前挑战

CapArena数据集面临的主要挑战包括两个方面：首先，在领域问题方面，现有的图像描述评估方法（如BLEU、METEOR等）主要针对短文本设计，难以有效评估VLMs生成的详细描述。这些方法在长文本描述上存在系统偏差，导致模型排名与人类偏好不一致。其次，在数据集构建过程中，如何设计一个可靠且高效的评估协议是一大挑战。研究团队最初尝试使用评分系统，但由于描述的复杂性和主观性，难以保证标注一致性。最终，团队采用了成对比较的评估范式，并通过严格的标注培训和质量管理，确保了数据的高质量。此外，如何开发自动化评估工具以降低人工标注成本，也是数据集构建中的一大难题。

常用场景

经典使用场景

CapArena数据集在图像描述生成领域中被广泛用于评估现代视觉-语言模型（VLMs）的详细描述能力。通过构建一个包含6000多对描述对比的平台，CapArena采用人类偏好投票的方式，对14种先进的VLMs进行详细描述能力的评估。这种竞技场式的评估方法不仅揭示了GPT-4o等领先模型在详细描述任务中达到甚至超越人类水平的表现，还为开源模型与商业模型之间的性能差距提供了量化依据。

衍生相关工作

CapArena的发布催生了一系列相关研究工作，特别是在自动化评估指标和视觉-语言模型的性能优化方面。基于CapArena的数据，研究者提出了VLM-as-a-Judge方法，利用强大的语言模型模拟人类偏好，显著提升了自动化评估的准确性。此外，CapArena还启发了针对详细描述任务的新型评估指标，如CAPTURE和VDC-Score，这些指标在详细描述的质量评估中表现出色。CapArena-Auto的推出进一步推动了自动化评估工具的发展，为图像描述生成领域的研究提供了新的方向。

数据集最近研究