COCO dataset (modified for visual computation problems)
收藏github2025-02-13 更新2025-02-11 收录
下载链接:
https://github.com/sunildkumar/r1_vlm
下载链接
链接失效反馈官方服务:
资源简介:
使用COCO数据集生成的视觉计算问题数据集。对于每张图像,要求执行加、减、乘、除操作,计算图像中两个类别的数量。
A visual arithmetic problem dataset generated using the COCO dataset. For each image, one is required to perform addition, subtraction, multiplication and division operations to calculate the quantities of two categories within the image.
创建时间:
2025-02-02
原始信息汇总
r1_vlm 数据集概述
数据集简介
- 尝试在小型VLM(Visual Language Model)上使用GRPO方法处理玩具任务。
数据集想法
- 参考博客文章展示了如何使用GRPO方法让LLM(Large Language Model)进行r1风格推理。该数据集旨在生成一个简单的视觉推理数据集,类似于博客文章中的计数游戏,以测试VLM是否能够完成此类任务。
数据集详情
- 使用COCO数据集,生成了一个视觉计算问题数据集。对于每张图片,要求执行加、减、乘、除操作,计算图像中两个类的数量。例如:“计算图像中狗的数量乘以猫的数量”。
- 数据集可在Hugging Face查看。
相关资源
- 关于如何微调Qwen2VL的样本代码,可参考Hugging Face教程。
- TRL的定制分支,用于VLM上的GRPO:sunildkumar/trl。
训练命令
- 从仓库根目录运行以下命令进行训练: bash uv run accelerate launch --config_file train/multi_gpu.yaml train/train.py uv run accelerate launch --config_file train/multi_gpu.yaml train/train_counting.py CUDA_VISIBLE_DEVICES=1,2,3 uv run accelerate launch --config_file train/multi_gpu_3only.yaml train/train_counting.py CUDA_VISIBLE_DEVICES=1 uv run train/train_counting.py CUDA_VISIBLE_DEVICES=1 uv run train/train_digit_recognition.py CUDA_VISIBLE_DEVICES=1,2,3 uv run accelerate launch --config_file train/multi_gpu_3only.yaml train/train_digit_recognition.py 2>&1 | tee digit_recognition_logs_$(date +%Y%m%d_%H%M%S).log
结果
- 模型训练于2025年2月2日5:12:25 PM开始,目前仅完成了大约250个训练步骤。一旦有结果,将进行更新。
搜集汇总
数据集介绍

构建方式
COCO数据集作为计算机视觉领域的基础数据集,提供了丰富的图像资源。本研究基于COCO数据集,创造性地构建了一个视觉计算问题数据集,通过对图像中不同类别的对象计数并进行加减乘除运算,形成了一系列视觉推理任务。
特点
该数据集的主要特点是融合了视觉识别与数学计算,要求模型不仅能够识别图像中的对象,还能理解并执行数学运算。此外,数据集的设计与常见的计数游戏类似,有助于评估模型在简单视觉推理任务上的表现。
使用方法
使用该数据集进行模型训练时,需通过特定的训练脚本进行多GPU加速训练。训练过程中,可以根据需要调整GPU配置和训练参数。数据集样本可通过Hugging Face平台获取,便于研究者进行模型训练和评估。
背景与挑战
背景概述
COCO数据集,全称为Common Objects in Context,是一个由微软研究院创建的大型图像识别数据集,自2014年起便成为计算机视觉领域的重要资源。该数据集的主要研究人员包括Piotr Dollar等,旨在推进图像识别、分割和检测技术的发展。COCO数据集提供了丰富的图像注释,包括物体识别、分割、动作识别等多个维度,对相关领域的研究产生了深远影响。
当前挑战
COCO数据集在构建过程中面临的挑战主要包括数据标注的准确性、多样性和大规模数据处理的复杂性。在具体应用中,如图像计数等视觉计算任务,挑战在于如何使视觉语言模型(VLM)理解并执行复杂的视觉推理任务。此外,由于COCO数据集的规模庞大,对计算资源的需求高,训练和推理过程中如何优化计算效率也是一大挑战。
常用场景
经典使用场景
在计算机视觉与自然语言处理领域,COCO数据集的经典使用场景主要在于图像理解与视觉推理任务。通过图像中的对象类别计数进行基础的四则运算,该数据集为研究视觉语言模型在执行简单视觉推理任务上的能力提供了实验基础。
衍生相关工作
基于COCO数据集的研究衍生了诸多相关工作,如对大规模视觉语言模型的微调,以及探索不同类型的视觉推理任务。这些工作进一步拓宽了视觉语言模型在图像理解、视觉问答等领域的应用范围。
数据集最近研究
最新研究方向
在计算机视觉与自然语言处理交叉领域,近期研究聚焦于探索大规模视觉语言模型(VLM)在视觉推理任务上的潜能。COCO数据集作为图像理解领域的金标准,被扩展用于生成视觉计算问题数据集,旨在测试VLM是否能够执行如加减乘除等基础数学运算。该研究尝试将大型语言模型的能力应用于图像中对象数量的推理计算,标志着对VLM模型在复杂数学逻辑推理任务上的应用探索,对促进智能视觉系统的发展具有显著意义。
以上内容由遇见数据集搜集并总结生成



