CapRL-5M caption dataset

Name: CapRL-5M caption dataset
Creator: 中国科学院大学, 上海人工智能实验室, 香港中文大学, 上海创新研究院, 阿里云
Published: 2025-09-27 01:59:55
License: 暂无描述

arXiv2025-09-27 更新2025-11-21 收录

下载链接：

https://github.com/InternLM/CapRL

下载链接

链接失效反馈

官方服务：

资源简介：

CapRL-5M数据集是由CapRL-3B标注的一个图像描述数据集，包含500万个图像描述。该数据集由大视觉语言模型（LVLM）生成描述，然后通过一个非视觉的LLM回答基于这些描述的多项选择题来评估描述的质量。数据集的创建过程包括使用LVLM生成描述，然后与图像相关的问题配对，再由LLM回答问题，以确定描述的奖励。该数据集用于评估和训练图像描述模型，旨在提高模型的准确性和描述的密度。

The CapRL-5M dataset is an image captioning dataset annotated by CapRL-3B, containing 5 million image captions. These captions are generated by Large Vision-Language Models (LVLMs), and their quality is evaluated by having a non-visual Large Language Model (LLM) answer multiple-choice questions based on these captions. The dataset creation process involves generating captions with LVLMs, pairing them with image-related questions, and then having LLMs answer the questions to determine the reward scores for the captions. This dataset is used for evaluating and training image captioning models, with the goal of improving model accuracy and caption density.

提供机构：

中国科学院大学, 上海人工智能实验室, 香港中文大学, 上海创新研究院, 阿里云

创建时间：

2025-09-27

搜集汇总

数据集介绍

构建方式

在视觉语言模型快速发展的背景下，CapRL-5M数据集通过强化学习与可验证奖励的创新范式构建而成。该数据集采用解耦双阶段流程：首先利用经过CapRL框架训练的CapRL-3B模型对500万张图像进行标注，其中图像源整合了ShareGPT4V-1M与DenseFusion-1M的优质数据，并补充了经过严格质量筛选的网络图像；随后通过视觉问答验证机制，使用无视觉模块的大型语言模型对生成描述进行多轮选择题测试，以答案准确率作为描述质量的客观评估标准，确保标注内容兼具细致性与准确性。

特点

该数据集在图像描述生成领域展现出显著特性。其标注内容以密集覆盖和结构清晰见长，能精准捕捉图表、信息图等复杂视觉元素中的数值关系与空间逻辑。通过强化学习机制驱动的描述生成，有效规避了传统监督微调导致的描述同质化问题，在Prism评估框架下达到与720亿参数模型相当的描述质量。数据规模扩展至500万样本时仍保持性能线性增长，体现了优异的可扩展性，同时稀疏监督机制使得单图像仅需少量问答对即可实现高质量标注。

使用方法

该数据集主要服务于大规模视觉语言模型的预训练阶段。研究人员可将图像-描述对输入模型进行跨模态对齐训练，显著提升模型在文档理解、图表解析等专业领域的感知能力。实际应用时建议采用三阶段训练策略：先使用BLIP-558K数据集进行初始对齐，再引入CapRL-5M进行深度预训练，最后通过指令微调数据集优化对话能力。在评估阶段，可通过Prism框架的解耦视觉问答流程，量化分析生成描述的语义完整度与信息密度，为模型优化提供可靠依据。

背景与挑战

背景概述

CapRL-5M caption dataset于2025年由上海人工智能实验室、中国科学技术大学及香港中文大学等机构联合推出，旨在解决图像描述生成任务中传统监督微调方法的局限性。该数据集基于强化学习可验证奖励的创新范式，通过解耦的双阶段流程生成高质量图像描述，显著提升了大视觉语言模型在视觉与语言模态对齐中的表现。其核心研究问题聚焦于如何为开放式图像描述任务设计客观的奖励函数，从而推动模型生成更具通用性和多样性的描述，对多模态预训练领域的发展产生了深远影响。

当前挑战

在图像描述领域，传统方法面临描述主观性导致的奖励设计难题，现有奖励模型易受长度偏好等偏见影响，引发奖励黑客问题。CapRL-5M构建过程中需克服多重挑战：一是需设计基于视觉问答准确率的客观奖励机制，避免依赖主观评价；二是构建高质量的问答对数据集时，需严格过滤信息泄露问题，确保问题仅能通过图像内容解答；三是在大规模图像收集中需平衡多样性、质量与安全性，通过语义去重和人工核查消除冗余与风险内容。

常用场景

经典使用场景

在视觉语言模型预训练领域，CapRL-5M数据集通过强化学习范式革新了传统监督微调方法。该数据集最经典的用途在于为大视觉语言模型提供密集且准确的图像描述，有效促进视觉与语言模态的对齐过程。其独特的基于可验证奖励的强化学习机制，使得模型能够生成超越单一标准答案的多样化描述，在文档理解、图表解析等需要细粒度感知的任务中展现卓越性能。

实际应用

在实际应用层面，CapRL-5M数据集支撑的视觉语言模型在智能文档处理、教育辅助系统等领域发挥重要作用。基于该数据集训练的模型能够精准解析医疗图表中的数值关系，准确描述工程图纸的结构特征，为金融数据分析提供可靠的视觉信息提取。其生成的密集描述还可作为检索系统的增强特征，显著提升跨模态检索的准确率与覆盖率。

衍生相关工作

该数据集催生了多项创新性研究工作，包括基于效用评估的Prism框架和视觉问答增强方法。相关研究团队借鉴其解耦式评估思路，开发了面向长视频理解的时序描述模型，并衍生出融合多专家知识的描述增强系统。这些工作进一步拓展了强化学习在开放域视觉理解任务中的应用边界，推动了视觉语言模型从静态感知向动态推理的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集