CapQA

Name: CapQA
Creator: 爱笔科技, 清华大学
Published: 2025-01-06 20:16:56
License: 暂无描述

arXiv2025-01-06 更新2025-01-08 收录

下载链接：

https://github.com/aibee00/SocraticQuestioning

下载链接

链接失效反馈

官方服务：

资源简介：

CapQA数据集由爱笔科技和清华大学的研究团队创建，旨在支持复杂视觉推理和问答任务的研究。该数据集包含1000张细粒度活动图像，数据来源于Consented Activities of People (CAP)数据集，经过筛选和标注生成。数据集的创建过程包括从CAP数据集中选择20种活动，每种活动随机提取50个视频片段，并从每个片段中选择一个关键帧作为图像数据。随后，使用GPT-4v自动生成包括问题、答案、详细描述和总结性标题的标注信息。CapQA数据集的应用领域主要集中在视觉推理和问答任务中，旨在减少幻觉现象并提升模型对细粒度图像细节的描述能力。

The CapQA dataset was developed by research teams from Aibee Technology and Tsinghua University, with the purpose of supporting research on complex visual reasoning and question answering (QA) tasks. It contains 1000 fine-grained activity images sourced from the Consented Activities of People (CAP) dataset, which were generated through filtering and annotation processes. The dataset creation workflow includes selecting 20 activity categories from the CAP dataset, randomly extracting 50 video clips for each category, and selecting one key frame from each clip as the image data. Subsequently, GPT-4V is used to automatically generate annotation information including questions, answers, detailed descriptions and summary titles. The CapQA dataset is primarily applied in visual reasoning and QA tasks, aiming to reduce hallucinations and enhance models' capability to describe fine-grained image details.

提供机构：

爱笔科技, 清华大学

创建时间：

2025-01-06

原始信息汇总

数据集概述

数据集名称

Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild

数据集来源

该数据集是论文《Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild》的官方实现，数据集可通过CapQA获取。

数据集用途

该数据集用于多模态推理任务，支持单轮和三轮推理评估。

数据集内容

数据集包含以下三个子数据集：

ScienceQA
- 数据文件：images, pid_splits.json, problems.json
- 下载地址：ScienceQA repo
- 评估脚本：
  - 单轮推理：CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/sqa.sh
  - 三轮推理：CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/sqa_3turn.sh
TextVQA
- 数据文件：TextVQA_0.5.1_val.json, train_val_images.zip
- 下载地址：
  - TextVQA_0.5.1_val.json：TextVQA_0.5.1_val.json
  - train_val_images.zip：train_val_images.zip
- 评估脚本：
  - 单轮推理：CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/textvqa.sh
  - 三轮推理：CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/textvqa_3turn.sh
MM-Vet
- 数据文件：mm-vet.zip
- 下载地址：mm-vet.zip
- 评估脚本：
  - 单轮推理：CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmvet.sh
  - 三轮推理：CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmvet_3turn.sh
- 评估方法：使用官方Jupyter Notebook进行评估，具体方法参考MM-Vet。

数据集使用说明

在使用评估脚本前，需将本仓库中的代码复制到官方LLAVA仓库中，替换原有文件。
需要替换llava/mm_utils文件夹，以支持新增的“Socratic Questioning”方法。
下载并解压eval.zip到./playground/data/目录下。

搜集汇总

数据集介绍

构建方式

CapQA数据集的构建基于Consented Activities of People (CAP)数据集，从中选取了20种细粒度活动，每种活动随机抽取50个视频片段，并从中提取关键帧作为图像数据。随后，利用GPT-4v模型自动生成图像的多轮对话标注，包括问题、答案、详细描述和总结性描述。这些标注以多轮对话的形式组织，便于后续的视觉指令微调和评估。

使用方法

CapQA数据集主要用于多模态大语言模型的视觉指令微调和评估。通过多轮对话的形式，模型可以逐步生成问题、回答问题，并最终生成详细的图像描述和总结性描述。数据集的使用方法包括1轮推理和3轮推理两种模式，分别适用于简单和复杂的视觉推理任务。实验表明，使用CapQA微调的模型在多个视觉推理和问答基准测试中表现出色，尤其是在减少幻觉和提升问题生成质量方面。

背景与挑战

背景概述

CapQA数据集由Aibee公司和清华大学的研究团队于2025年创建，旨在推动复杂视觉推理和问答任务的研究。该数据集包含1000张细粒度活动图像，专为视觉指令调优和评估设计。CapQA的创建基于Socratic Questioning (SQ)框架，该框架通过启发式自问自答机制，结合Chain of Thought (COT)和视觉指令调优的优势，显著减少了多模态大语言模型（MLLMs）中的幻觉现象，并提升了模型对图像细节的描述能力。CapQA的推出为视觉推理领域的研究提供了新的基准，尤其在减少幻觉和提升零样本推理能力方面具有重要影响。

当前挑战

CapQA数据集面临的挑战主要集中在两个方面。首先，复杂视觉推理任务中的幻觉问题依然严峻，尽管SQ框架通过自问自答机制减少了幻觉，但如何进一步优化模型以生成更准确的视觉描述仍需探索。其次，数据集的构建过程中，自动生成高质量的多轮对话标注是一个技术难点。尽管使用了GPT-4v进行自动标注，但如何确保生成的问答对和描述与图像内容高度一致，同时避免冗余信息，仍然是一个需要解决的挑战。此外，如何在轻量级MLLMs上高效地进行训练和推理，同时保持高性能，也是CapQA数据集未来研究的重要方向。

常用场景

经典使用场景

CapQA数据集主要用于多模态大语言模型（MLLMs）的视觉指令微调和评估。该数据集包含1000张细粒度活动图像，每张图像都配有详细的多轮对话，涵盖问题生成、回答生成、详细描述和总结性描述等任务。通过这种结构化的对话格式，CapQA能够有效支持模型在复杂视觉推理和问答任务中的表现，尤其是在减少幻觉和提高细粒度细节描述能力方面。

解决学术问题

CapQA数据集解决了多模态大语言模型在复杂视觉推理任务中的幻觉问题和高训练成本问题。通过引入苏格拉底式提问（SQ）框架，模型能够通过启发式自问自答的方式，减少对无关视觉线索的依赖，从而降低幻觉现象。此外，CapQA的小规模特性使得模型能够在轻量级MLLMs上进行高效微调，显著降低了训练成本，同时提升了模型在零样本视觉推理任务中的表现。

实际应用

CapQA数据集在实际应用中具有广泛的潜力，尤其是在需要高精度视觉推理的场景中，如自动驾驶、智能监控和医疗图像分析。通过微调后的模型能够准确识别图像中的细粒度活动，并提供详细的描述和总结性信息。例如，在自动驾驶中，模型可以通过分析车辆周围的行人行为，提供更安全的驾驶决策支持；在医疗图像分析中，模型能够帮助医生更准确地识别病变区域，提升诊断效率。

数据集最近研究