dali-does/clevr-math
收藏Hugging Face2022-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dali-does/clevr-math
下载链接
链接失效反馈官方服务:
资源简介:
CLEVR-Math是一个基于CLEVR的组合多模态数学推理数据集,旨在测试组合语言、视觉和数学推理能力。数据集包含视觉问答任务,数据通过CLEVR数据集提供的代码生成,使用Blender和数据集策划者构建的模板。数据集目前仅支持英语,包含训练、验证和测试三个数据分割。数据字段包括模板、ID、问题、图像和标签。
CLEVR-Math is a compositional multimodal mathematical reasoning dataset based on the CLEVR benchmark, designed to evaluate compositional linguistic, visual, and mathematical reasoning capabilities. It contains visual question answering (VQA) tasks. The data is generated using the code provided by the original CLEVR dataset, with templates constructed with Blender and developed by the dataset curators. Currently, the dataset only supports English, and includes three data splits: training, validation, and test sets. The core data fields include template, ID, question, image, and label.
提供机构:
dali-does
原始信息汇总
数据集概述
数据集名称
- 名称: CLEVR-Math - Compositional language, visual, and mathematical reasoning
数据集属性
- 语言: 英语
- 语言生成方式: 机器生成
- 多语言性: 单语种
- 许可证: cc-by-4.0
- 标签:
- 推理
- 神经符号
- 多模态
- 任务类别: 视觉问答
- 任务ID: 视觉问答
数据集描述
- 摘要: 基于CLEVR的数据集,用于组合多模态数学推理。
- 支持的任务和排行榜: 排行榜将在后续日期公布。
- 语言: 仅支持英语,扩展到其他语言需要重写CLEVR模板。
数据集结构
- 数据实例:
general: 默认版本,包含训练和测试中的多跳问题。multihop: 仅在测试数据中包含多跳问题,用于测试推理的泛化能力。
- 数据字段:
template: 字符串id: 字符串question: 字符串image: 图像label: 整数
- 数据分割: 训练/验证/测试
数据集创建
- 生成方式: 使用与CLEVR数据集一起提供的代码,通过blender和数据集策划者构建的模板生成数据。
使用数据的考虑
- 已知限制: 需要更多信息。
附加信息
- 数据集策划者: Adam Dahlgren Lindström - dali@cs.umu.se
- 许可证信息: 根据Creative Commons Attribution Share Alike 4.0 International (CC-by 4.0)许可。
- 引用信息: 需要更多信息。
搜集汇总
数据集介绍

构建方式
在视觉推理与自然语言处理交叉领域,CLEVR-Math数据集通过系统性方法构建,以支持组合式多模态数学推理。该数据集基于经典视觉问答数据集CLEVR,利用其底层三维场景生成引擎与预定义模板,通过程序化方式自动生成问题-图像对。具体而言,研究者扩展了CLEVR的模板系统,引入涉及计数、比较、算术运算等数学概念的复杂问题,并借助Blender软件渲染对应的合成图像,确保每个问题均与视觉场景严格对应,从而形成结构化的多模态样本。
特点
CLEVR-Math的显著特点在于其强调组合性推理与数学逻辑的深度融合。数据集中的问题设计具有层次化结构,涵盖从基础属性识别到多步算术运算的渐进复杂度,尤其注重测试模型对视觉信息的符号化抽象与数学操作能力。此外,数据集提供两种版本:通用版本在训练与测试集中均包含多跳问题,而专门版本则将多跳问题仅置于测试集,以此评估模型在未见组合模式上的泛化性能,为神经符号推理研究提供了精准的评估基准。
使用方法
使用该数据集时,研究者可通过Hugging Face的datasets库便捷加载,并利用预训练的多模态处理器(如CLIP)对文本与图像进行联合编码。数据加载后,用户可根据模板类型筛选特定子集,例如仅包含减法运算的问题,以针对性地训练或评估模型在特定数学概念上的表现。数据集的标准化字段(包括问题、图像、标签及模板标识)支持灵活的预处理流程,便于集成至现有的视觉问答或推理框架中,推动组合推理模型的迭代与优化。
背景与挑战
背景概述
在人工智能迈向多模态推理的进程中,视觉与语言结合的复杂任务成为研究焦点。CLEVR-Math数据集于2022年由瑞典于默奥大学的Adam Dahlgren Lindström与Savitha Sam Abraham等研究人员构建,其核心研究问题聚焦于组合式的多模态数学推理。该数据集基于经典的CLEVR视觉问答数据集扩展而来,旨在通过合成图像与结构化问题,系统评估模型在视觉场景中执行计数、比较及算术运算等组合推理的能力。它的出现为神经符号推理、视觉语言理解等领域提供了精准的基准,推动了模型在组合泛化与可解释性方面的深入探索。
当前挑战
CLEVR-Math数据集致力于解决多模态数学推理这一领域挑战,其核心在于要求模型同时整合视觉信息与语言逻辑,执行如加减运算或数量比较等组合操作。这要求模型不仅需准确识别图像中的物体属性与空间关系,还需解析问题的层次结构,实现符号与感知的深度融合。在构建过程中,挑战主要源于数据生成的复杂性:需通过Blender渲染高度可控的合成场景,并设计严谨的模板以生成多样且无歧义的问题-答案对,确保数据在语义与数学逻辑上的一致性,同时避免数据偏差影响评估效度。
常用场景
经典使用场景
在视觉推理与多模态人工智能领域,CLEVR-Math数据集为研究组合式语言、视觉与数学推理提供了基准平台。该数据集通过合成图像与结构化问题,要求模型同时解析视觉场景中的物体属性、空间关系,并执行算术运算,从而评估模型在复杂多模态任务中的组合泛化能力。其经典使用场景集中于训练和测试神经符号推理系统,推动模型超越表面特征匹配,实现深层次的逻辑与数学整合。
实际应用
在实际应用层面,CLEVR-Math所针对的组合式多模态推理能力,对智能教育辅助、自动化视觉检查及交互式机器人系统具有重要价值。例如,在教育场景中,系统需根据图表解答数学问题;在工业质检中,机器需统计图像中特定零件的数量并判断合规性。该数据集训练出的模型能够提升AI在需要跨模态逻辑推理的复杂环境中的实用性,为开发更智能、可解释的辅助工具奠定基础。
衍生相关工作
围绕CLEVR-Math数据集,已衍生出一系列探索神经符号架构与组合推理的经典研究工作。研究者们利用该数据集开发了多种模型,如将视觉感知模块与符号推理引擎结合的混合系统,以及基于Transformer的端到端多模态模型。这些工作不仅在该数据集的排行榜上竞争性能,更深入分析了模型在分布外泛化、多跳推理链构建等方面的表现,推动了视觉推理、可解释人工智能及组合泛化理论的前沿进展。
以上内容由遇见数据集搜集并总结生成



