VL-Thinking

github2025-02-27 更新2025-03-01 收录

下载链接：

https://github.com/UCSC-VLAA/VL-Thinking

下载链接

链接失效反馈

官方服务：

资源简介：

一个为可思考的语言视觉模型（LVLMs）定制的R1-Derived视觉指令微调数据集

A R1-Derived visual instruction tuning dataset customized for thought-enabled language-vision models (LVLMs)

创建时间：

2025-02-27

原始信息汇总

VL-Thinking: 一个为可思考LVLMs优化的视觉指令数据集

数据集概述

数据集名称: VL-Thinking
数据集来源: UCSC-VLAA
数据集组成: 数据集由以下子数据集的样本组成：
- CLEVR_Math: 原始样本数量 15,000，重写样本数量 14,748，验证样本数量 9,771
- GeoQA170K: 原始样本数量 14,019，重写样本数量 11,745，验证样本数量 7,794
- Synthesis: 原始样本数量 29,998，重写样本数量 29,998，验证样本数量 26,672
- ArxivQA: 原始样本数量 14,992，重写样本数量 14,810，验证样本数量 14,109
- ALLaVA-LAION: 原始样本数量 36,977，重写样本数量 30,191，验证样本数量 18,123
总样本数量: 76,469
数据集覆盖: 问题来自不同领域（数学、通用），包含不同类型的问题（封闭式、开放式）

数据生成流程

图像描述: 对于没有包含描述的图像，使用GPT-4o生成详细描述。
视觉语言CoT生成: 使用R1模型生成视觉语言链式思维数据。
答案重写: 使用GPT-4o重写答案，以修正不期望的表达。
答案验证: 使用GPT-3.5-Turbo验证生成回答的正确性。

数据示例

CLEVR_Math: 包含图像和问题，例如“减去所有球。剩下多少物体？”
GeoQA: 包含图像和问题，例如“给定一个直径为AB的半圆，AD和BC相交于点P，角DPB为60.0度，在D为弧BC中点的条件下，计算tan(角ADC)的值。”
Synthesis: 包含图像和问题，例如“函数的方程是什么？”
ArxivQA: 包含图像和问题，例如“在图(b)中，重复率如何影响1030纳米波长的第9次和第11次谐波强度之比？”

贡献者

数据集由UCSC-VLAA团队贡献。

搜集汇总

数据集介绍

构建方式

VL-Thinking数据集的构建采用了四步流程。首先，对于包含图像和视觉问题的数据集，使用GPT-4o生成详细的图像描述。其次，利用R1模型生成视觉语言链式思维（Vision-Language CoT）数据。然后，通过GPT-4o重写答案以修正错误。最后，使用GPT-3.5-Turbo验证生成回答的正确性。

使用方法

使用VL-Thinking数据集时，用户可以从GitHub或Hugging Face等平台获取数据集。数据集的使用包括加载数据集、处理数据集中的图像和文本信息，以及根据数据集提供的示例进行模型训练和评估。

背景与挑战

背景概述

VL-Thinking数据集是一个针对可思考语言模型（Thinkable LVLMs）的视觉指令微调数据集，它基于R1-Derived技术。该数据集的第一版包含了多个来源的数据样本，如CLEVR_Math、GeoQA170K、Synthesis、ArxivQA和ALLaVA-LAION等，涵盖了数学、地理、合成数据、学术论文摘要和图像描述等多个领域。这些数据不仅包括了封闭式问题，还包括了开放式问题，旨在训练模型理解视觉内容并进行推理。VL-Thinking数据集由UCSC-VLAA团队创建，并于2023年发布，对于提升视觉语言模型的可思考性和指令遵循能力具有重要意义。

当前挑战

在构建VL-Thinking数据集的过程中，研究人员面临着多个挑战。首先，需要确保图像的唯一性和多样性，避免重复数据导致的训练偏差。其次，数据生成管道的设计要求精确地生成详细的图像描述和视觉问答的连贯思维过程，这需要复杂的自然语言处理和视觉理解技术。此外，数据集构建中还涉及到了如何有效地验证生成的回答的正确性，以及如何平衡数据集中不同领域和问题类型的代表性，这些都是确保数据集质量和有效性的关键因素。

常用场景

经典使用场景

VL-Thinking数据集经典使用场景是作为视觉指令微调的基准，它从多个来源汇集了具有数学和一般问题的样本，旨在训练和评估能够进行视觉推理的语言模型。该数据集通过提供图像和与之相关的问题，以及问题解决的详细步骤，使得模型能够学习如何理解视觉内容并据此进行推理。

解决学术问题

VL-Thinking数据集解决了学术研究中如何将视觉信息与语言处理结合的问题，特别是在数学和视觉问题解决领域。它为研究者提供了一个平台，可以在此平台上训练和测试模型，以评估模型在理解图像和进行视觉推理方面的能力，这对于发展更智能的机器学习系统具有重要意义。

实际应用

在实际应用中，VL-Thinking数据集可以被用来开发和改进各种需要视觉理解和推理的应用程序，例如智能教育软件，它可以辅助学生解决数学问题，或者用于增强现实（AR）和虚拟现实（VR）应用中的交互性。

数据集最近研究