ReGraP Dataset

github2025-05-19 更新2025-05-20 收录

下载链接：

https://github.com/xyfyyds/ReGraP

下载链接

链接失效反馈

官方服务：

资源简介：

ReGraP数据集包含单对象和多对象数据，平均每个集合有5.5个对象，每个集合有20张图像，包含文本描述、CoT问答、知识图谱，平均长度为5.2。

The ReGraP dataset includes single-object and multi-object data. On average, each collection contains 5.5 objects and 20 images. It encompasses textual descriptions, Chain-of-Thought (CoT) question-answering materials, and knowledge graphs, with an average length of 5.2.

创建时间：

2025-04-27

原始信息汇总

ReGraP-LLaVA 数据集概述

数据集简介

名称：ReGraP-LLaVA (Reasoning-enabled Graph-based Personalized Large Language and Vision Assistant)
类型：多模态数据集（图像+文本+知识图谱）
核心特点：结合知识图谱(KG)和链式推理(CoT)数据，支持个性化知识学习和关系推理

数据构成

数据类型	包含内容	统计信息
单对象	个性化概念识别	平均5.5个对象/集合
多对象	属性与关系识别	20张图像/集合
文本	描述文本	✔︎
问答对	CoT推理问答	✔︎
知识图谱	关系数据	✔︎
长度	平均序列长度	~5.2

应用场景

封闭式问答任务
开放式问答任务
个性化多模态推理案例研究

基准测试结果

封闭式问答性能对比（见close_results.png）
开放式问答性能对比（见open_results.png）
实际案例展示（见case1.png和case2.png）

快速开始

python

训练命令

python train.py --set_name $name --exp_name graph --prefix_token $num_of_relations --epoch 10 --model_path $model_path --data_root $image_folder --user_prompt

测试命令

python test.py --set_name $name --exp_name graph --prefix_token $num_of_relations --model_path $model_path --data_root $image_folder --user_prompt

搜集汇总

数据集介绍

构建方式

在个性化多模态大语言模型的研究背景下，ReGraP数据集通过知识图谱（KGs）和思维链（CoT）推理数据的有机结合构建而成。该数据集采用多阶段生成流程，首先采集包含单对象和多对象的图像集合，平均每组包含5.5个对象和20幅图像。随后为每组数据标注文本描述、思维链问答对以及结构化知识图谱，形成平均长度为5.2的关联序列。这种构建方式有效捕捉了对象间的属性关联和复杂推理路径。

使用方法

该数据集主要服务于个性化多模态大语言模型的训练与评估，使用流程分为两个阶段：训练阶段需指定关系前缀令牌数量和数据路径，通过10个epoch的迭代使模型学习个性化知识关联；测试阶段则加载预训练模型对特定集合进行推理验证。用户可通过设置--user_prompt参数激活个性化提示功能，完整的使用示例包含数据根目录设定和模型路径配置，支持闭卷问答和开卷问答两种评估模式。

背景与挑战

背景概述

ReGraP数据集由研究团队在开发ReGraP-LLaVA模型过程中构建，旨在解决多模态大语言模型在个性化推理任务中的局限性。该数据集整合了知识图谱（KGs）和思维链（CoT）数据，通过结构化关系表示和逐步推理机制，赋予模型理解个性化概念间复杂关联的能力。其核心创新在于突破传统个性化模型仅关注物体识别的框架，转而模拟人类基于关系的推理过程，支持如‘谁能帮助Bocchi创作歌词’等涉及多对象属性与关系的复杂查询。数据集包含平均每组5.5个对象、20张图像及对应的文本描述、CoT问答对和知识图谱，平均关系链长度达5.2，为个性化多模态推理研究提供了重要基准。

当前挑战

ReGraP数据集面临的核心挑战体现在两个维度：领域问题层面，现有多模态模型难以捕捉个性化场景中对象间的隐含关系，需解决从静态识别到动态推理的范式转换；数据构建层面，协调知识图谱的逻辑严谨性与思维链数据的自然语言灵活性存在显著难度，需精确标注对象属性、关系及推理路径。此外，数据规模与质量的平衡亦为关键，每组需确保20张图像与文本描述的语义对齐，同时维持5.2步的平均推理深度，这对标注一致性和计算效率提出了双重考验。

常用场景

经典使用场景

在个性化多模态大语言模型（MLLM）的研究中，ReGraP数据集为模型提供了丰富的知识图谱（KG）和思维链（CoT）数据，使其能够理解和推理个性化知识中的复杂关系。该数据集特别适用于处理涉及多对象属性及其关系的查询，例如在个性化场景中回答“谁能在歌词创作上帮助Bocchi”这类需要推理的问题。

解决学术问题

ReGraP数据集解决了传统MLLMs在处理个性化查询时的局限性，尤其是缺乏对多对象属性和关系推理的问题。通过结合知识图谱和思维链数据，该数据集不仅支持个性化知识的识别，还实现了对知识间关系的推理，从而提升了模型在复杂查询中的准确性和上下文理解能力。

实际应用

在实际应用中，ReGraP数据集可广泛应用于个性化助手、智能客服和教育领域。例如，在个性化助手中，模型能够根据用户的个性化知识图谱，提供更精准和上下文相关的回答；在教育领域，模型可以通过推理知识间的关系，帮助学生理解复杂概念。

数据集最近研究