CapRL-QA-75K

Name: CapRL-QA-75K
Creator: InternLM
Published: 2026-04-16 21:43:37
License: 暂无描述

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/internlm/CapRL-QA-75K

下载链接

链接失效反馈

官方服务：

资源简介：

CapRL 75K QA训练数据集是一个经过精心筛选的多模态数据集，包含75,285个样本，每个样本由图像和多个选择题QA项组成。该数据集专为CapRL的两阶段训练目标设计，通过视觉问题的可回答性来评估图像描述的质量。数据来源于网络和现有开源数据集，涵盖自然场景、图表和文档等多种类型，以确保多样性。数据集中的每个样本包含以下字段：'id'（唯一标识符）、'image'（图像数据）、'prompt'（用户提示）、'data_source'（数据来源）和'reward_model'（包含问题和答案的QA项）。该数据集适用于视觉问答（VQA）和图像描述生成任务，并用于训练CapRL-3B模型。

提供机构：

InternLM

创建时间：

2026-04-16

原始信息汇总

CapRL-QA-75K 数据集概述

基本信息

数据集名称: CapRL 75K QA Training Dataset
发布方: InternLM
许可证: CC-BY-NC-4.0
任务类别: 图像文本到文本、视觉问答
语言: 英语
标签: CapRL、图像描述、多模态、强化学习、可验证奖励、问答
数据格式: Parquet
数据量: 75,285 个样本

数据集用途

本数据集是用于训练 CapRL-3B 模型的经过精心筛选的 75K 问答训练集。CapRL-3B 是一个基于 Qwen2.5-VL-3B 初始化的轻量级图像描述模型。数据集专为 CapRL 的两阶段训练目标设计，其中描述质量通过视觉问题的可回答性来评估。

数据构成

每个样本包含以下字段：

id: 样本唯一标识符。
image: 包含图像字节数据。
prompt: 用户提示，格式为包含角色和内容的列表。
data_source: 数据来源标识。
reward_model: 包含 ground_truth，其中是一个或多个问答对列表。每个问答对包含：
- question: 问题文本。
- choices: 多项选择选项列表。
- answer: 正确答案标识。

数据来源与构建

图像来源于网络和现有开源数据集，涵盖自然场景、图表和文档，以最大化多样性。
问答构建流程在 CapRL 代码库中完全开源：https://github.com/InternLM/CapRL#qa-curation

相关资源

论文: https://arxiv.org/abs/2509.22647
代码库: https://github.com/InternLM/CapRL
模型集合: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189
相关模型:
- CapRL-3B: https://huggingface.co/internlm/CapRL-3B
- CapRL-InternVL3.5-8B: https://huggingface.co/yuhangzang/CapRL-InternVL3.5-8B
- CapRL-Qwen3VL-2B: https://huggingface.co/internlm/CapRL-Qwen3VL-2B
- CapRL-Qwen3VL-4B: https://huggingface.co/internlm/CapRL-Qwen3VL-4B
其他数据集: CapRL-2M Dataset: https://huggingface.co/datasets/internlm/CapRL-2M
在线演示空间:
- CapRL-Qwen2.5VL-3B Space: https://huggingface.co/spaces/yuhangzang/caprl
- CapRL-Qwen3VL-4B Space: https://huggingface.co/spaces/yuhangzang/CapRL-Qwen3VL-4B

搜集汇总

数据集介绍

构建方式

在视觉语言模型的研究领域中，数据集的构建质量直接关系到模型性能的上限。CapRL-QA-75K数据集的构建遵循了一套严谨的、完全开源的流水线。其图像来源广泛，涵盖了网络资源以及现有的开源数据集，囊括了自然场景、图表和文档等多种类型，旨在最大化视觉内容的多样性。核心构建逻辑围绕一个两阶段的强化学习目标展开，即通过视觉问答的可回答性来评估图像描述的质量。具体而言，每个图像样本都与多个精心设计的选择题配对，这些题目及其答案的筛选过程旨在确保其能够有效验证生成描述的准确性与信息覆盖度。

使用方法

该数据集主要服务于基于强化学习的图像描述模型训练，特别是CapRL系列模型的开发。在使用时，研究者可遵循CapRL开源仓库中提供的完整训练流程。数据集以Parquet格式存储，便于通过Hugging Face Datasets库高效加载。其标准化的数据结构，包含图像字节流、用户提示以及奖励模型所需的问答对，能够无缝集成到两阶段的训练框架中。第一阶段利用大型视觉语言模型生成丰富的描述，第二阶段则使用该数据集中的视觉问答对来评估和优化生成描述的质量。通过这种方式，数据集为模型提供了可验证的奖励信号，驱动模型学习生成更准确、更全面的图像描述。

背景与挑战

背景概述

CapRL-QA-75K数据集由InternLM团队于2025年构建，旨在支持基于强化学习的图像描述生成研究。该数据集作为CapRL训练框架的核心组成部分，通过精心筛选的75,285个样本，将图像与多项选择题对相结合，以评估描述质量的可验证性。其设计源于对传统监督微调局限性的反思，后者易导致模型对有限标注描述的过拟合。CapRL框架采用两阶段训练范式，利用视觉语言模型生成丰富描述，再通过视觉问答任务量化描述准确性，从而推动轻量级多模态模型在开放域图像理解领域的发展，显著提升了模型在图表、信息图及文档等复杂场景下的感知能力。

当前挑战

该数据集致力于解决图像描述生成领域的关键挑战，即如何构建可量化、可验证的评估机制以克服描述任务的主观性与开放性。传统方法依赖人工标注，存在成本高昂且一致性难以保证的问题。CapRL-QA-75K通过引入视觉问答对作为奖励信号，将描述质量转化为可测量的答案正确率，但这一过程面临多项挑战：在构建层面，需要从网络及开源数据源中筛选多样化的图像，涵盖自然场景、图表与文档等多种类型，并确保生成的问答对既具判别性又无歧义；在技术层面，需设计高效的过滤流程以剔除低质量或噪声样本，保证数据对强化学习训练的有效支撑，同时维持多模态对齐的精确性。

常用场景

经典使用场景

在视觉语言模型的研究领域，CapRL-QA-75K数据集被设计用于支持一种创新的两阶段强化学习训练范式。该数据集的核心应用场景是训练轻量级图像描述模型，通过将每张图像与一系列精心构建的多项选择题配对，模型生成的描述质量得以通过视觉问答的可回答性进行客观评估。这种机制使得模型能够超越传统监督微调的限制，探索并生成更具创造性和泛化能力的图像描述。

解决学术问题

该数据集主要致力于解决图像描述任务中开放性、主观性带来的评估难题。传统方法依赖有限的人工标注描述，容易导致模型过拟合与创造力匮乏。CapRL-QA-75K通过引入可验证的奖励机制，将描述质量转化为可量化的问答正确率，为强化学习在图像描述领域的应用提供了可靠的数据基础。这不仅提升了模型对图表、信息图及文档等复杂视觉内容的理解精度，也显著减少了描述中的幻觉现象，推动了多模态模型评价体系的发展。

实际应用

在实际部署中，基于该数据集训练的CapRL系列模型已展现出卓越的实用性。这些模型能够高效处理来自自然场景、图表与文档的多样化图像，生成结构清晰、信息覆盖全面的描述。其轻量级特性（如3B参数）确保了在资源受限环境下的快速推理，使得高质量图像描述技术可集成于内容审核、无障碍辅助、教育材料自动生成以及商业智能分析等多个下游应用，显著提升了自动化视觉内容理解的普及性与可靠性。

数据集最近研究