GQA-CCG

Name: GQA-CCG
Creator: 北京理工大学，深圳北理莫斯科大学，浙江大学
Published: 2024-12-18 17:09:41
License: 暂无描述

arXiv2024-12-18 更新2024-12-20 收录

下载链接：

https://github.com/NeverMoreLCH/CCG

下载链接

链接失效反馈

官方服务：

资源简介：

GQA-CCG数据集是由北京理工大学、深圳北理莫斯科大学和浙江大学联合创建的，旨在评估视觉问答（VQA）模型在多层次组合泛化中的表现。该数据集基于GQA数据集构建，通过过滤和手动标注，包含了多种层次的组合问题，如短语-短语、短语-单词和单词-单词级别。数据集的创建过程包括自动生成新问题和人工审查，确保了数据的质量和多样性。GQA-CCG数据集主要用于研究模型在不同层次组合泛化中的表现，特别是在视觉问答和时间视频定位任务中的应用。

The GQA-CCG dataset was jointly created by Beijing Institute of Technology, Shenzhen MSU-BIT University and Zhejiang University, aiming to evaluate the performance of visual question answering (VQA) models in multi-level compositional generalization. Built upon the original GQA dataset, it includes various levels of compositional questions such as phrase-phrase, phrase-word and word-word levels via filtering and manual annotation. The dataset construction process involves automatic question generation and manual review, which ensures the quality and diversity of the data. The GQA-CCG dataset is mainly used to study the performance of models on different levels of compositional generalization, particularly for applications in visual question answering and temporal video localization tasks.

提供机构：

北京理工大学，深圳北理莫斯科大学，浙江大学

创建时间：

2024-12-18

原始信息汇总

Consistency of Compositional Generalization across Multiple Levels

数据集信息

数据集名称: GQA-CCG Dataset
相关论文: Consistency of Compositional Generalization across Multiple Levels (AAAI 2025)
作者: Chuanhao Li, Zhen Li, Chenchen Jing, Xiaomeng Fan, Wenbo Ye, Yuwei Wu, Yunde Jia
论文链接: https://arxiv.org/abs/2412.13636
补充材料链接: 补充材料
数据集下载链接:
- OneDrive
- Baidu NetDisk (password: DSPS)

搜集汇总

数据集介绍

构建方式

GQA-CCG数据集基于GQA数据集构建，旨在评估视觉问答（VQA）模型在多层次组合泛化中的表现。构建过程中，首先从GQA数据集的val all分割中筛选出包含短语-短语层次新颖组合的样本，形成候选集。随后，对这些样本进行手动标注，添加包含短语-词和词-词层次新颖组合的问题。此外，利用GPT-3.5生成更多类似问题，并通过自动后处理和人工审查确保数据质量。最终，数据集包含多个层次的新颖组合，用于评估模型在不同层次上的组合泛化能力。

使用方法

GQA-CCG数据集主要用于评估视觉问答模型在多层次组合泛化中的表现。研究者可以通过该数据集测试模型在短语-短语、短语-词和词-词层次上的泛化能力，并通过一致性指标评估模型在不同层次上的表现是否一致。此外，数据集还可用于训练和验证基于元学习的框架，以提升模型在多层次组合泛化中的表现。

背景与挑战

背景概述

GQA-CCG数据集由北京理工大学、深圳北理莫斯科大学和浙江大学的研究人员共同创建，旨在评估视觉问答（VQA）模型在多层次组合泛化中的表现。该数据集的核心研究问题是模型在处理不同层次的组合（如短语-短语、短语-单词、单词-单词）时的一致性。通过构建GQA-CCG数据集，研究人员希望量化模型在不同复杂度组合上的泛化能力，并推动视觉与语言模型在组合泛化方面的研究。该数据集的发布为相关领域的研究提供了新的基准，特别是在视觉问答和时序视频定位任务中，展示了其对模型性能提升的潜力。

当前挑战

GQA-CCG数据集的构建面临多重挑战。首先，如何在不同层次的组合中保持一致性是一个关键问题，现有模型在处理复杂组合时表现不佳，尤其是在短语-短语层次上。其次，数据集的构建过程中，研究人员需要手动标注和自动生成包含不同层次组合的样本，确保数据集的多样性和复杂性。此外，如何设计有效的评估指标来衡量模型在多层次组合泛化中的一致性也是一个挑战。最后，模型的训练和优化需要处理不同复杂度的样本，确保模型能够逐步从简单到复杂地学习组合，这对模型的设计和优化提出了更高的要求。

常用场景

经典使用场景

GQA-CCG数据集的经典使用场景主要集中在视觉问答（VQA）任务中，特别是在评估模型对组合泛化的能力。该数据集通过引入多层次的新组合（如短语-短语、短语-单词、单词-单词）来测试模型在不同复杂度层次上的泛化能力。通过这种方式，研究者可以评估模型在处理复杂组合时的表现，并确保模型在不同层次上的泛化能力具有一致性。

解决学术问题

GQA-CCG数据集解决了现有模型在组合泛化能力上的一致性问题。传统模型在处理复杂组合时，往往只能泛化到某一层次的组合，而无法同时泛化到与之相关的简单组合。该数据集通过引入多层次的组合泛化任务，帮助研究者评估模型在不同层次上的泛化能力是否一致，从而推动了组合泛化领域的研究进展。

实际应用

GQA-CCG数据集在实际应用中具有广泛的应用前景，特别是在需要处理复杂视觉问答任务的场景中。例如，在智能助手、自动驾驶、医疗图像分析等领域，模型需要能够理解和处理复杂的视觉和语言组合。通过使用GQA-CCG数据集，开发者可以训练出更具泛化能力的模型，从而提高这些应用的准确性和鲁棒性。

数据集最近研究