CRIC

Name: CRIC
Creator: 中国科学院智能信息处理重点实验室
Published: 2021-10-27 10:22:47
License: 暂无描述

arXiv2021-10-27 更新2024-06-21 收录

下载链接：

https://cricvqa.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

CRIC是一个针对视觉和常识组合推理的视觉问答（VQA）基准数据集，由中国科学院智能信息处理重点实验室创建。该数据集包含494,000个问题，涉及图像和常识的组合推理，旨在评估模型在理解视觉信息和常识知识方面的能力。CRIC数据集通过自动算法从场景图和知识图中生成问题样本，并提供丰富的额外标注支持评估指标。数据集的应用领域包括视觉问答、组合推理和常识推理，旨在解决现有VQA模型在处理复杂视觉和常识问题时的局限性。

CRIC is a visual question answering (VQA) benchmark dataset for visual and commonsense compositional reasoning, developed by the Key Laboratory of Intelligent Information Processing of the Chinese Academy of Sciences. This dataset contains 494,000 question samples that involve compositional reasoning over images and commonsense knowledge, aiming to evaluate models' abilities to comprehend both visual information and commonsense knowledge. CRIC generates question samples from scene graphs and knowledge graphs via automatic algorithms, and provides rich supplementary annotations to support standard evaluation metrics. The application scopes of this dataset include visual question answering, compositional reasoning and commonsense reasoning, and it is designed to address the limitations of existing VQA models when handling complex visual and commonsense problems.

提供机构：

中国科学院智能信息处理重点实验室

创建时间：

2019-08-08

搜集汇总

数据集介绍

构建方式

在视觉问答领域，构建一个能够评估模型在视觉与常识之间进行组合推理能力的数据集，需要精心设计生成机制以控制问题内容并降低常识先验的影响。CRIC数据集采用了一种动态模板组装方法，该方法基于图像对应的场景图和经过处理的常识知识图谱自动生成问题-答案对。具体而言，该方法首先从Visual Genome数据集中获取场景图，并从ConceptNet等知识源中提取常识三元组，进而通过规则解析将短语形式的实体分解为对象级节点，形成图到图格式的知识表示。随后，系统根据预定义的基本模板组件，动态组合问题模板，并利用场景图和知识图谱中的信息填充模板，生成包含丰富注释的问题样本，包括推理步骤和中间结果的真实输出。这一自动化流程不仅显著降低了人工标注成本，还确保了问题在组合性和平衡性上的高质量。

特点

CRIC数据集的核心特点在于其专注于视觉与常识的组合推理，引入了多种新颖的问题类型，如QueryObjSG和VerifyAtt，这些问题要求模型不仅将对象作为查询背景知识的入口，还需将常识完全扎根于视觉世界，并想象对象间可能的关系。数据集包含约49.4万个问题，覆盖9.6万张图像，问题平均长度达12个单词，涉及平均6个推理步骤，呈现出较高的组合复杂性。此外，CRIC提供了丰富的附加注释，包括子场景图、子知识图、功能程序布局以及每个函数的真实输出，这些注释为模型的诊断和训练提供了有力支持。数据集的评估指标综合了答案正确性和常识接地性，有效避免了模型仅通过猜测获得高分，从而更公平地评估模型的真实理解能力。

使用方法

CRIC数据集的使用方法主要围绕其评估视觉与常识组合推理能力的设计目标展开。研究人员可利用该数据集训练和测试各类VQA模型，特别是那些专注于多跳推理和常识集成的模型。在使用时，模型需要处理输入图像和自然语言问题，并输出答案以及对应的目标对象区域，评估过程同时考虑答案准确性和接地准确性。数据集提供的功能程序注释和中间结果真实输出，可用于模块化网络的训练和诊断，帮助识别模型在特定子任务上的瓶颈。此外，CRIC的平衡性问题分布和多样化的常识关系类型，使其成为研究视觉与知识对齐、多模态联合表示等前沿问题的理想平台。数据集已公开提供，支持训练、验证和测试的标准划分，便于进行可重复的实验比较。

背景与挑战

背景概述

视觉问答领域在图像分类、目标检测等基础任务取得显著进展后，逐渐向多模态深度推理拓展。由中国科学院计算技术研究所的高迪飞、王瑞平、山世光、陈熙霖等研究人员于近年提出的CRIC数据集，旨在评估模型在视觉与常识知识上的组合推理能力。该数据集基于Visual Genome图像构建，包含约49.4万个问题，覆盖9.6万张真实图像，核心研究问题聚焦于如何将常识知识有效锚定到视觉场景中，并执行多跳推理。CRIC通过引入新的问题类型和评估指标，推动了视觉常识推理向更复杂、更贴近现实应用的方向发展，为高级人工智能代理的研发提供了重要基准。

当前挑战

CRIC数据集致力于解决视觉与常识组合推理这一前沿问题，其核心挑战在于如何让模型超越对常识的表面理解，真正将常识知识锚定到图像区域并进行联合推理。构建过程中的主要困难包括：首先，现有常识知识图谱（如ConceptNet）多以事件级三元组形式表示，难以直接与视觉对象对齐，需设计新的图到图格式以挖掘对象间隐含的常识关系；其次，为公平评估模型真实理解能力，需精心设计组合式问题以减少常识先验的干扰，例如通过查询满足常识要求的对象属性来强制模型关注图像内容；此外，自动生成高质量问题与丰富标注时，需平衡样本分布并确保语义自然性，同时维护大规模数据集的标注一致性也是一项艰巨任务。

常用场景

经典使用场景

在视觉问答领域，CRIC数据集被广泛用于评估模型在视觉与常识推理方面的组合能力。该数据集通过自动生成的组合式问题，要求模型不仅识别图像中的物体及其空间关系，还需结合外部常识知识进行多步推理。例如，模型需要回答“叉子能否移动盘子上的鸡蛋？”这类问题，这要求系统同时理解视觉场景中的物体布局以及常识中工具与物体的功能关系。CRIC的经典使用场景包括训练和测试模块化网络、知识感知模型及预训练视觉语言模型，以推动模型在复杂推理任务上的性能提升。

解决学术问题

CRIC数据集主要解决了视觉问答研究中模型难以将常识知识有效融入视觉推理的学术问题。传统VQA数据集侧重于单一视觉事实查询或简单常识检索，而CRIC通过引入组合式问题，迫使模型在回答过程中同时进行视觉定位与常识对齐。该数据集的意义在于提供了一个公平评估平台，通过双重指标（答案正确性与常识接地性）减少模型依赖先验知识猜测答案的偏差，从而促进更鲁棒、可解释的视觉常识推理模型的发展，对多模态人工智能的演进产生了深远影响。

衍生相关工作

CRIC数据集衍生了一系列经典研究工作，主要集中在模块化网络扩展、知识图谱融合及预训练模型优化等方面。例如，研究者基于CRIC开发了NMN-CS模型，通过引入常识推理模块增强了神经模块网络的表达能力。同时，Memory-VQA等知识感知模型利用CRIC提供的知识图谱注释，显式整合外部常识以提升推理性能。此外，ViLBERT等视觉语言预训练模型在CRIC上进行了微调，探索了多模态联合表示学习的新途径。这些工作共同推动了视觉常识推理领域向更透明、鲁棒的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集