lmms-lab/ICON-QA

Name: lmms-lab/ICON-QA
Creator: lmms-lab
Published: 2024-03-08 05:42:25
License: 暂无描述

Hugging Face2024-03-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/ICON-QA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是ICONQA的格式化版本，用于评估大规模多模态模型。数据集包含问题ID、问题、选项、答案、查询图像、选项图像、问题类型、标签、年级和技能等特征。数据集分为验证集和测试集，分别包含21488和21489个示例。数据集的下载大小为667286379字节，总大小为662387529.089字节。

提供机构：

lmms-lab

原始信息汇总

数据集概述

数据集信息

特征

question_id: 字符串类型
question: 字符串类型
choices: 字符串类型
answer: 字符串类型
query_image: 图像类型
choice_image_0: 图像类型
choice_image_1: 图像类型
ques_type: 字符串类型
label: 字符串类型
grade: 字符串类型
skills: 字符串类型

数据分割

val:
- 字节数: 329185883.464
- 样本数: 21488
test:
- 字节数: 333201645.625
- 样本数: 21489

数据大小

下载大小: 667286379
数据集大小: 662387529.089

配置

config_name: default
- 数据文件:
  - val: data/val-*
  - test: data/test-*

搜集汇总

数据集介绍

构建方式

在视觉语言理解领域，抽象图表的推理能力是衡量多模态模型智能水平的重要维度。ICON-QA数据集基于原始IconQA基准进行格式化重构，专为大规模多模态模型评估套件lmms-eval设计。其构建过程保留了原始数据的问题、选项、答案及图像内容，并新增了question_id、ques_type、label、grade和skills等结构化字段，以支持细粒度的模型能力分析。数据集划分为验证集和测试集，分别包含21488和21489个样本，每个样本包含query_image及两个选项图像choice_image_0和choice_image_1，从而实现了对抽象图表理解任务的标准化与可复现评估。

特点

该数据集的核心特色在于其聚焦于抽象图表理解与视觉语言推理的评估场景。每个问题均附带多模态选项图像，要求模型不仅理解图表中的符号、颜色和空间关系，还需进行逻辑推理。数据集中包含ques_type和skills字段，可对问题类型与所需技能进行标注，便于研究者分析模型在不同认知维度上的表现。此外，grade字段提供了难度分级，使得模型能力的渐进式评估成为可能。这种多层次、多模态的标注体系，使得ICON-QA成为评估多模态模型抽象推理能力的理想基准。

使用方法

使用ICON-QA数据集时，研究者可借助lmms-eval评估套件实现一键式模型评测。数据以HuggingFace数据集格式存储，支持通过简单的API调用加载验证集和测试集。每个样本包含问题文本、选项列表及对应的图像路径，模型需根据query_image和choice_image_0/1进行多选一回答。评估时，可通过比较模型输出与answer字段计算准确率，并利用label、grade和skills字段进行分层分析。该数据集的设计确保了从数据加载到结果统计的全流程便捷性，特别适合大规模多模态模型的标准化性能比较。

背景与挑战

背景概述

在视觉语言理解领域，抽象图解与符号化图示的语义解析一直是极具挑战性的研究方向。ICON-QA数据集由潘璐、邱亮等研究者于2021年在NeurIPS上提出，依托于大规模多模态模型评估套件lmms-eval，旨在系统性地评测多模态大模型在抽象图解理解与视觉语言推理方面的能力。该数据集聚焦于几何图形、科学图表、标志符号等非自然图像场景，要求模型不仅具备基础视觉感知，还需掌握空间关系、逻辑推断与常识知识等多维认知技能。其发布填补了传统视觉问答基准（如VQA、CLEVR）在抽象符号推理领域的空白，推动了多模态模型从简单物体识别向高层次概念推理的跨越，成为评估模型泛化性与可解释性的重要工具。

当前挑战

ICON-QA所面临的挑战主要源于抽象图解理解本身的复杂性。领域问题层面，模型需克服对非真实感图像的语义鸿沟，例如识别几何图形中的隐含关系、理解科学图表中的变量因果逻辑，以及解析标志符号的文化约定性，这要求模型超越像素级匹配，具备类人的抽象推理能力。构建过程中，研究者需精心设计多类型问题（如计数、比较、空间定位）以确保覆盖全面的认知维度，同时平衡不同难度等级的数据分布，避免模型仅依赖统计捷径而非真正理解。此外，多模态对齐的挑战尤为突出，如何将自然语言问题与抽象视觉元素精确对应，并排除图像中的冗余噪声，是保证评测效度的关键难点。

常用场景

经典使用场景

ICON-QA数据集作为大规模多模态模型评估套件（lmms-eval）的核心组成部分，专注于抽象图表理解与视觉语言推理的基准测试。其经典使用场景在于评估多模态大模型在图标级视觉问答任务上的表现，通过提供涵盖几何图形、科学图表、交通标识等抽象视觉元素的多样化问题，检验模型对非自然图像中符号化信息的解析能力。该数据集精心设计了包含单图问答与多图对比的题目形式，并标注了技能标签与难度等级，使得研究者能够系统性地衡量模型在空间关系推理、逻辑演绎和常识应用等关键认知维度上的水平。

实际应用

在实际应用中，ICON-QA所评测的抽象图表理解能力直接关联到诸多高价值场景。在教育科技领域，该数据集可为自适应学习系统提供评估标准，使其能够精准诊断学生在数学、科学等学科中对图示题目的理解偏差；在工业设计领域，它辅助测试AI助手解读工程图纸、流程图和用户界面图标的能力，从而提升人机协作效率。此外，在自动化文档处理系统中，基于该数据集训练的模型能更可靠地解析包含符号化信息的商业报告和技术手册，显著降低人工复核成本。

衍生相关工作

ICON-QA的提出催生了一系列重要的衍生工作。一方面，它直接促进了lmms-eval评估框架的完善，使得对GPT-4V、LLaVA等前沿多模态模型在抽象推理任务上的横向对比成为可能；另一方面，研究者基于该数据集开发了专门针对图标理解的视觉编码器改进方案，以及融合结构化知识图谱的推理增强方法。此外，该基准的评估范式被后续的MathVista、ScienceQA等工作所借鉴，形成了评估多模态模型在STEM领域抽象推理能力的方法论基础，持续推动着视觉语言模型向更深层次的认知智能演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集