Image-Relation-Pair Dataset (IRPD)

Name: Image-Relation-Pair Dataset (IRPD)
Creator: 香港科技大学
Published: 2026-04-21 23:19:49
License: 暂无描述

arXiv2026-04-21 更新2026-04-23 收录

下载链接：

https://github.com/xcooool/vis_arithmetic

下载链接

链接失效反馈

官方服务：

资源简介：

IRPD是由香港科技大学构建的多模态关系推理数据集，包含18类语义关系及1500余对主客体组合，涵盖文本与图像双模态。数据源自ConceptNet知识库，经GPT-4筛选后通过FLUX文本生成模型生成对应图像，并经过CLIP评分与人工校验确保质量。该数据集支持视觉语义算术任务，如两元减法（关系推理）和三元运算（类比推理），旨在提升大模型在非结构化环境（如家庭服务机器人）中的跨模态关系推理能力，解决工具替代、任务泛化等实际问题。

IRPD is a multimodal relational reasoning dataset developed by The Hong Kong University of Science and Technology. It encompasses 18 categories of semantic relations and over 1500 subject-object pairs, covering both text and image modalities. The dataset is derived from the ConceptNet knowledge base: first filtered by GPT-4, then the corresponding images were generated via the FLUX text-to-image generation model, and their quality was validated through CLIP scoring and manual checks to ensure reliability. This dataset supports visual semantic arithmetic tasks, including binary subtraction (for relational reasoning) and ternary operations (for analogical reasoning). It aims to enhance the cross-modal relational reasoning capabilities of large language models (LLMs) in unstructured environments such as home service robots, and solve practical problems like tool substitution and task generalization.

提供机构：

香港科技大学

创建时间：

2026-04-21

原始信息汇总

Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic 数据集概述

数据集基本信息

数据集名称：Image-Relation-Pair Dataset (IRPD)
核心用途：用于系统评估多模态大语言模型在视觉语义算术任务上的性能。
任务定义：
- 二项减法任务：表示为 对象 − 主体 = 关系。模型需要根据输入的主体-对象对推断出关系，任务以多项选择题形式实现。
- 三项运算任务：表示为 对象1 − 主体1 + 主体2 = 对象2。模型需要根据输入的三项内容，生成代表对象2的文本响应（类比式）。

数据集获取与构建

获取地址：https://drive.google.com/drive/folders/1LJr9u1LBgSUnblfroRQ2sDd-6jPJoEqm?usp=sharing
构建方法：数据集生成流程代码位于代码仓库的 IRPD_dataset/ 目录下。

数据集关联内容

评估代码：位于 evalution/ 目录，用于对IRPD和Visual7W-Telling数据集进行评估。
相关研究：研究提出了语义算术强化微调 (SAri-RFT) 方法，通过新设计的可验证奖励函数和组相对策略优化 (GRPO)，结合强化学习对大型视觉语言模型进行后训练。

搜集汇总

数据集介绍

构建方式

在视觉语义算术领域，数据集的构建需兼顾语义关系的多样性与视觉表征的精确性。Image-Relation-Pair Dataset (IRPD) 的构建遵循系统化流程：首先从通用知识图谱ConceptNet中筛选出18种具体语义关系，并提取超过1500对高质量的主客体文本对；随后利用先进文本生成图像模型为每对文本生成对应图像，并通过CLIP评分与人工校验确保图文语义对齐；最终形成涵盖图文双模态的结构化三元组数据集，为模型学习跨模态关系推理提供了坚实基础。

使用方法

IRPD数据集主要用于系统评估大视觉语言模型在两项视觉语义算术任务上的性能。在两项减法任务中，模型需根据给定的主客体对（文本或图像）推断其间的语义关系，并以选择题形式作答。在三项操作任务中，模型则需解决类比问题，即根据已知的两对关系推导出缺失项。研究者在训练与测试阶段，依据任务类型设计特定的提示模板，将原始三元组数据转化为标准问答对。通过在该数据集上的评测，可以量化模型从视觉场景中抽象语义关系并进行类比推理的能力，为模型优化提供明确方向。

背景与挑战

背景概述

视觉语义算术作为多模态推理的前沿领域，旨在使模型能够从图像中推断语义关系，其核心挑战在于跨越模态鸿沟并整合常识知识。Image-Relation-Pair Dataset (IRPD) 由香港科技大学的Chuou Xu、Liya Ji与Qifeng Chen团队于2026年构建，旨在系统评估大型视觉语言模型在视觉语义算术任务上的性能。该数据集基于ConceptNet知识图谱，涵盖18种语义关系与超过1500个高质量的主客体对，并以文本与图像双模态形式呈现。IRPD的创建推动了服务与家用机器人在非结构化环境中的语义推理能力，为符号关系在感知中的落地提供了关键基准，显著增强了模型在工具替代、任务泛化等复杂场景下的决策与人机交互水平。

当前挑战

IRPD致力于解决视觉语义算术这一核心领域问题，其挑战主要体现在模型需从复杂视觉场景中抽象出简洁的语义概念，而非受无关细节干扰；同时，模型必须依赖深厚的常识知识库才能正确解析关系。在数据集构建过程中，研究者面临多重挑战：首先，从ConceptNet中筛选出易于视觉表征且无歧义的主客体对，需借助大语言模型进行严格验证；其次，利用文本到图像生成模型创建高质量图像时，需通过CLIP分数评估与人工核查来确保语义对齐与视觉一致性；此外，设计适用于三术语操作任务的、能够准确衡量生成答案与真实答案语义相似度的可验证奖励函数亦是一大难点，传统二值奖励函数难以捕捉开放域类比推理的细微差别。

常用场景

经典使用场景

在多模态人工智能领域，视觉语义算术任务要求模型从图像中推断概念间的抽象关系，Image-Relation-Pair Dataset (IRPD) 为此提供了系统性基准。该数据集的核心应用场景是评估和提升大型视觉语言模型在两项经典任务上的表现：其一是二项减法任务，模型需根据给定的主体-客体图像对，从多项选择中识别出正确的语义关系；其二是三项操作任务，模型需基于已知的两个概念对及其关系，通过类比推理生成第三个概念。这些任务模拟了人类从感知中提炼符号化关系并进行组合推理的高级认知过程，是衡量模型跨模态关系理解能力的试金石。

解决学术问题

IRPD 数据集旨在解决视觉语义算术研究中长期存在的关键挑战。传统方法依赖在嵌入空间直接进行向量运算，但受限于模态鸿沟和稳定性问题，难以准确捕捉跨模态的概念关系。该数据集通过提供涵盖18种关系、超过1500对高质量文本-图像对的结构化资源，为系统性地量化模型从视觉输入中提取并操作语义关系的能力奠定了基础。它有效应对了模型需要融合常识知识、忽略无关视觉细节、并将复杂场景抽象为简洁概念的学术难题，推动了从感知到符号推理的跨模态对齐研究。

实际应用

在现实世界的非结构化环境中，例如家庭服务机器人领域，IRPD 所针对的视觉关系推理能力具有至关重要的应用价值。机器人需要理解厨房场景中“面粉”与“蛋糕”之间的“由...制成”关系，才能进行工具替代（如用锅铲代替勺子）或任务泛化（如食谱适配）。该数据集训练出的模型能够增强机器人在复杂环境中基于视觉感知进行符号推理、决策制定以及人机交互的能力。其下游任务验证已扩展至真实世界的视觉问答数据集（如Visual7w-telling），证明了其在提升模型对图像内容进行深层次语义理解和推理方面的实际效用。

数据集最近研究