CapArena-Auto

github2025-03-18 更新2025-03-19 收录

下载链接：

https://github.com/njucckevin/CapArena

下载链接

链接失效反馈

官方服务：

资源简介：

CapArena-Auto 是一个用于详细图像描述的自动化评估基准，包含600张评估图像，并通过与三个基线模型的成对战斗来评估模型性能。最终得分由GPT4o-as-a-Judge计算。

CapArena-Auto is an automated evaluation benchmark for detailed image captioning. It comprises 600 evaluation images, and assesses model performance via pairwise head-to-head battles against three baseline models. The final scores are computed by GPT4o-as-a-Judge.

创建时间：

2025-03-16

原始信息汇总

CapArena数据集概述

数据集基本信息

名称：CapArena
类型：图像描述生成（Image Captioning）基准测试数据集
关联论文：CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
发布状态：
- [x] CapArena-Auto使用指南
- [x] 论文结果复现代码和数据
- [ ] 其他资源

数据集组成

CapArena-Auto

用途：自动化详细图像描述评估基准
内容：
- 600张评估图像
- 3个基线模型的成对比较
- GPT4o作为评判标准
评估指标：
- Score_avg（平均得分）
- Score_gpt（GPT评分）
- Score_cog（Cog评分）
- Score_cpm（CPM评分）
- Length_Avg（平均长度）

CapArena人工标注结果

内容：
- 6523对人类标注的成对比较结果
- 包含多种描述指标的标注结果（如GPT-4o、LLaVA-OneVision等）

数据获取

CapArena-Auto图像：600张评估图像
CapArena人工标注结果：标注结果
DOCCI图像：5100张图像

使用指南

评估自定义模型

查看当前排行榜：
- 下载已评估模型结果
- 运行python caparena_auto_scores.py
生成描述：
- 下载600张图像和结果模板
- 为图像生成详细描述
使用GPT4o评估：
- 配置OpenAI API密钥
- 运行python caparena_auto_eval.py
查看分数：
- 运行python caparena_auto_scores.py --new_model_name Model-Test

复现论文结果

计算一致性：
- 运行python caparena_metrics.py
VLM-as-a-Judge：
- 运行python vlm_as_a_judge.py

致谢

感谢DOCCI提供的高质量人工标注工作
感谢所有参与CapArena数据集编译的标注人员

引用

bibtex @article{cheng2025caparena, title={CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era}, author={Cheng, Kanzhi and Song, Wenpo and Fan, Jiaxin and Ma, Zheng and Sun, Qiushi and Xu, Fangzhi and Yan, Chenyang and Chen, Nuo and Zhang, Jianbing and Chen, Jiajun}, journal={arXiv preprint arXiv:2503.12329}, year={2025} }

搜集汇总

数据集介绍

构建方式

CapArena-Auto数据集的构建基于600张评估图像，通过模型间的成对对抗评估方式进行。评估过程中，模型与三个基线模型进行对抗，最终得分由GPT4o-as-a-Judge计算得出。该数据集的设计旨在自动化评估图像描述的详细程度，确保评估结果的客观性和可重复性。

特点

CapArena-Auto数据集的特点在于其采用了竞技场式的评估方法，能够全面衡量模型在生成详细图像描述方面的性能。数据集包含600张图像，覆盖了多样化的场景和内容，确保了评估的广泛性和代表性。此外，数据集通过GPT4o-as-a-Judge进行评分，确保了评估结果的权威性和一致性。

使用方法

使用CapArena-Auto数据集时，用户首先需下载600张评估图像，并生成相应的详细描述。随后，通过配置OpenAI API密钥，用户可以使用提供的脚本进行模型评估。评估结果将以成对判决文件的形式生成，并可通过脚本查看模型在排行榜中的得分。用户还可将结果提交至在线排行榜，与其他模型进行对比。

背景与挑战

背景概述

CapArena-Auto数据集由Kanzhi Cheng等研究人员于2025年提出，旨在为大语言模型（LLM）时代的详细图像描述任务提供自动化评估基准。该数据集包含600张评估图像，并通过与三个基线模型的成对比较来评估模型性能，最终得分由GPT4o作为评判标准计算得出。该数据集的核心研究问题在于如何在大语言模型时代提升图像描述的详细性和准确性，为相关领域的研究提供了重要的基准和参考。CapArena-Auto的发布标志着图像描述任务在自动化评估方面迈出了重要一步，推动了该领域的技术进步。

当前挑战

CapArena-Auto数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，图像描述的详细性和准确性仍然是一个复杂且具有挑战性的任务，尤其是在面对多样化场景和复杂语义时，模型往往难以生成高质量的描述。其次，在数据集构建过程中，如何设计一个公平且高效的自动化评估框架是一个关键挑战。尽管GPT4o作为评判标准提供了较高的准确性，但其成本较高，且依赖于外部API，这在一定程度上限制了数据集的广泛应用。此外，如何确保评估结果的稳定性和可重复性也是构建过程中需要克服的难题。

常用场景

经典使用场景

CapArena-Auto数据集在图像描述生成领域具有重要应用，特别是在详细图像描述生成模型的评估中。该数据集通过600张评估图像，结合GPT4o-as-a-Judge的自动化评估机制，能够对模型生成的详细描述进行精准评分。这种评估方式不仅提高了评估效率，还确保了评估结果的客观性和一致性。

衍生相关工作

CapArena-Auto数据集的推出，催生了一系列相关研究工作。例如，基于该数据集的自动化评估机制，研究人员开发了多种图像描述生成模型，并在公开的Leaderboard上进行性能比较。此外，该数据集还促进了图像描述生成领域与其他领域的交叉研究，如自然语言处理、计算机视觉等，推动了多学科融合的发展。

数据集最近研究