five

CLEVR-70k, R1-Distilled Visual Reasoning Dataset

收藏
github2025-02-09 更新2025-02-10 收录
下载链接:
https://github.com/Deep-Agent/R1-V
下载链接
链接失效反馈
官方服务:
资源简介:
CLEVR-70k是一个用于视觉推理的数据集,包含了70000个合成图像和对应的描述。R1-Distilled Visual Reasoning Dataset是基于CLEVR-70k的一个精简版数据集,用于视觉推理任务。

CLEVR-70k is a visual reasoning dataset comprising 70,000 synthetic images and their corresponding descriptions. The R1-Distilled Visual Reasoning Dataset is a distilled variant of the CLEVR-70k dataset, designed for visual reasoning tasks.
创建时间:
2025-02-03
原始信息汇总

R1-V 数据集概述

数据集简介

R1-V 数据集是一个用于增强视觉语言模型泛化能力的强化学习数据集。该数据集通过验证强化学习与可验证奖励(RLVR)在效果和泛化能力方面的优势,旨在提升视觉语言模型在视觉计数能力上的泛化性。

数据集特点

  1. RLVR 方法在效果和泛化能力上超过链式思维监督微调(CoT-SFT)。
  2. 通过激励 VLMs 学习泛化的视觉计数能力,避免对训练集的过拟合。
  3. 在 OOD 测试中,2B 模型在仅 100 步训练后超过 72B 模型。
  4. 训练过程在 8 个 A100 GPUs 上进行,耗时 30 分钟,成本 $2.62。

使用的数据集

贡献者

更新日志

  • 2025-02-06:上传评估脚本,优化 README,撰写总结博客。
  • 2025-02-03:上传训练代码库。
  • 2025-02-03:上传一些经过验证的 Deepseek-R1 视觉推理轨迹。
  • 2025-02-03:发布 R1-V 仓库。

引用信息

bib @misc{chen2025r1v, author = {Chen, Liang and Li, Lei and Zhao, Haozhe and Song, Yifan and Vinci}, title = {R1-V: Reinforcing Super Generalization Ability in Vision-Language Models with Less Than $3}, howpublished = {url{https://github.com/Deep-Agent/R1-V}}, note = {Accessed: 2025-02-02}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
CLEVR-70k数据集是基于CLEVR基准构建的,旨在通过强化学习与可验证奖励(RLVR)的方式,提升视觉语言模型在泛化视觉计数能力上的表现。该数据集通过精心设计的实验,激励模型学习具有普遍性的视觉计数能力,避免对训练集的过拟合。
特点
该数据集的特点在于其能够显著提升视觉语言模型在未见过分布(OOD)测试中的鲁棒性,同时仅需少量的训练步骤即可达到较好的效果。此外,其训练成本较低,便于研究者快速迭代与验证模型性能。
使用方法
使用该数据集时,研究者需要准备相应的训练环境,并按照提供的脚本和参数配置进行模型的训练与评估。数据集提供了示例脚本,以便在Subset of SuperCLEVR上快速评估模型在OOD计数任务上的表现。用户可以根据需要修改脚本和数据集,以适应不同的测试场景。
背景与挑战
背景概述
CLEVR-70k数据集,全称为CLEVR-70k, R1-Distilled Visual Reasoning Dataset,是由Liang Chen、Lei Li、Haozhe Zhao、Yifan Song和Vinci等研究人员共同创建的。该数据集旨在通过强化学习提升视觉语言模型在视觉推理任务中的泛化能力。其创建时间是2025年,隶属于视觉语言领域,主要研究问题是如何提高视觉语言模型在未知数据分布下的表现。该数据集的发布对相关领域产生了重要影响,为视觉语言模型的研究提供了新的视角和方法。
当前挑战
该数据集在研究领域中面临的挑战主要包括:如何通过有限的数据和计算资源实现视觉语言模型的高效训练和泛化;如何在保持模型性能的同时,优化模型的训练时间和成本;以及如何处理训练过程中遇到的内存溢出等问题。此外,该数据集在解决图像视觉推理任务时,也面临着如何避免模型对训练数据集的过拟合,提高模型在未知数据分布下的鲁棒性等挑战。
常用场景
经典使用场景
CLEVR-70k数据集,作为视觉推理领域的重要资源,其经典使用场景主要在于训练和评估视觉语言模型的计数和推理能力。该数据集通过精心设计的图像和问题,使得模型能够在复杂的视觉场景中理解和推理,从而提升模型在视觉语言任务上的泛化能力。
解决学术问题
该数据集解决了视觉语言模型在面临真实世界复杂场景时,常见的泛化能力不足和推理错误的问题。通过CLEVR-70k,研究者能够训练出在视觉计数和推理任务上具有更高准确性和鲁棒性的模型,这对于推动视觉语言模型的实际应用具有重要意义。
衍生相关工作
基于CLEVR-70k数据集的研究成果,已经衍生出了一系列相关工作,包括但不限于对视觉语言模型泛化能力的深入探究、模型训练效率的优化,以及在不同视觉推理任务上的应用研究,这些工作进一步扩展了视觉语言模型的应用领域和影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作