five

ReGraP

收藏
arXiv2025-05-07 更新2025-05-08 收录
下载链接:
https://github.com/xyfyyds/ReGraP
下载链接
链接失效反馈
官方服务:
资源简介:
ReGraP数据集是由中国科学院深圳先进技术研究院、西湖大学工程学部、明尼苏达大学双城分校、多伦多大学的研究团队创建的,包含120组个性化知识,每组包含图像、知识图谱和问答对。该数据集旨在促进个性化多模态大语言模型的学习和推理能力,数据集的构建过程涉及知识图谱的构建和问答对的生成。ReGraP数据集被用于训练ReGraP-LLaVA模型,并在ReGraP基准测试中评估其性能。

The ReGraP dataset was developed by research teams from the Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, the School of Engineering at Westlake University, the University of Minnesota Twin Cities, and the University of Toronto. It encompasses 120 sets of personalized knowledge, with each set containing images, knowledge graphs, and question-answer pairs. This dataset is designed to advance the learning and reasoning capabilities of personalized multimodal large language models. The construction process of the ReGraP dataset involves the development of knowledge graphs and the generation of question-answer pairs. The ReGraP dataset has been utilized to train the ReGraP-LLaVA model and evaluate its performance on the ReGraP benchmark.
提供机构:
中国科学院深圳先进技术研究院, 西湖大学工程学部, 明尼苏达大学双城分校, 多伦多大学
创建时间:
2025-05-07
原始信息汇总

ReGraP数据集概述

基本信息

  • 数据集名称:ReGraP
  • 托管地址:https://github.com/xyfyyds/ReGraP

数据描述

(注:根据提供的README内容,该数据集未包含具体描述信息)

使用说明

(注:根据提供的README内容,该数据集未包含使用说明信息)

其他信息

(注:根据提供的README内容,该数据集未提供其他相关信息)

搜集汇总
数据集介绍
main_image_url
构建方式
ReGraP数据集的构建采用了多模态知识图谱与思维链问答对相结合的创新方法。首先从用户提供的图像和文本描述中提取个性化概念作为实体节点,通过GPT-4o驱动的图构建器生成关系三元组形成基础图谱。随后引入知识图谱增强器,通过两阶段处理(添加属性节点和探索新关系)构建完整的个性化知识图谱。最后基于深度优先搜索提取推理路径,通过大语言模型生成包含详细推理步骤的问答对,形成120组包含图像、知识图谱和思维链问答的独立数据集。
特点
该数据集具有三大核心特征:1)结构化知识表示,通过知识图谱显式建模个性化概念间的语义关系;2)多模态推理支持,每个知识集平均包含5.2个关系路径和20个思维链问答对;3)复杂场景覆盖,包含单对象和多对象(最多6个)场景,其中多对象场景占比33.3%。相比现有数据集,其独特价值在于同时支持个性化概念识别和关系推理能力评估。
使用方法
使用ReGraP数据集时需注意三阶段流程:预训练阶段将知识图谱通过软提示(GNN编码)或硬提示(关系描述序列)与视觉语言模型对齐;微调阶段联合优化图像编码器、图谱投影器和语言模型;评估阶段采用分层基准测试,包含四大类封闭式问题和开放式描述任务。典型应用场景包括个性化视觉问答、关系推理和情境化图像描述,需特别注意图谱结构与多模态特征的跨模态对齐。
背景与挑战
背景概述
ReGraP数据集由中国科学院深圳先进技术研究院等机构的研究团队于2025年提出,旨在解决多模态大语言模型(MLLMs)在个性化推理任务中的关键挑战。该数据集包含120组个性化知识集合,每组包含图像、知识图谱(KGs)和基于图谱的思维链问答对(CoT QA),通过结构化知识表示和复杂推理路径,突破了传统个性化模型仅关注单一概念识别的局限。其创新性地将图推理机制引入MLLMs训练框架,显著提升了模型对多对象关系推理和上下文理解的能力,为个性化人工智能助手的发展提供了新的研究范式。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,需解决多对象关系推理的复杂性,包括跨概念属性关联建模(如乐队成员间的技能互补关系)、多跳推理能力缺失(如通过三层关系链回答"谁能帮助Bocchi写歌词")以及动态知识更新问题;在构建过程层面,存在知识图谱与视觉语义对齐的难题(需平衡图结构与文本序列的表示差异)、高质量CoT数据生成的可靠性(要求问答对既覆盖图谱关系又符合自然语言逻辑)以及多模态数据标注一致性(确保图像区域、图谱节点和文本描述的精确对应)。这些挑战通过创新的软硬提示融合方法和分层评估基准得到系统性应对。
常用场景
经典使用场景
在个性化多模态大语言模型(MLLMs)的研究中,ReGraP数据集被广泛应用于增强模型对用户特定概念的理解和推理能力。该数据集通过结合图像、知识图谱(KGs)和思维链问答对(CoT QA pairs),为模型提供了结构化的个性化知识表示和复杂的推理路径。经典使用场景包括模型训练和评估,特别是在需要模型识别个性化概念、理解其属性及关系,并进行多步推理的任务中。
实际应用
ReGraP数据集在实际应用中表现出色,特别是在需要个性化推理的场景中。例如,在音乐乐队管理中,模型可以利用数据集中的知识图谱和问答对,识别乐队成员之间的关系,并回答诸如“谁可以帮助Bocchi写歌词?”等复杂问题。此外,该数据集还可应用于智能家居、电子设备管理等领域,帮助用户通过自然语言与设备进行个性化交互。
衍生相关工作
ReGraP数据集衍生了一系列经典工作,特别是在个性化MLLMs和知识图谱结合的研究中。例如,ReGraP-LLaVA模型通过软提示和硬提示方法,将知识图谱与MLLMs对齐,显著提升了模型的推理能力。此外,基于ReGraP的评测基准(ReGraP Benchmark)为评估模型的推理和知识连接能力提供了标准化工具,推动了该领域的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作