UniSandbox

Name: UniSandbox
Creator: 北京大学、重庆大学、香港大学多媒体实验室、鹏城实验室
Published: 2025-11-26 01:58:48
License: 暂无描述

arXiv2025-11-26 更新2025-11-27 收录

下载链接：

https://github.com/PKU-YuanGroup/UniSandBox

下载链接

链接失效反馈

官方服务：

资源简介：

UniSandbox是由北京大学等科研机构构建的合成评估数据集，专为研究多模态模型中理解与生成的协同机制而设计。该数据集包含900条精心构造的样本，涵盖数学运算与符号映射两大任务类型，通过GPT-4o生成确保数据分布独立性。其构建过程采用渐进式难度设计，通过算术链长度与映射层数控制任务复杂度，有效规避训练数据泄露风险。该数据集主要应用于多模态推理生成能力评估，旨在揭示模型内部知识迁移与逻辑推理的机制瓶颈，为统一多模态架构优化提供实证基础。

UniSandbox is a synthetic evaluation dataset constructed by Peking University and other research institutions, specifically designed to investigate the collaborative mechanism of understanding and generation in multimodal models. This dataset contains 900 carefully constructed samples covering two major task categories: mathematical operations and symbol mapping, with its data distribution independence guaranteed via GPT-4o generation. Its construction adopts a progressive difficulty design, where task complexity is controlled by arithmetic chain length and the number of mapping layers, effectively avoiding the risk of training data leakage. This dataset is primarily used for evaluating multimodal reasoning and generation capabilities, aiming to uncover the mechanistic bottlenecks of internal knowledge transfer and logical reasoning in models, and provide an empirical foundation for optimizing unified multimodal architectures.

提供机构：

北京大学、重庆大学、香港大学多媒体实验室、鹏城实验室

创建时间：

2025-11-26

原始信息汇总

UniSandbox 数据集概述

数据集基本信息

数据集名称: UniSandbox
研究主题: 统一多模态模型中的理解与生成关系分析
核心贡献: 提出解耦评估框架和受控合成数据集，避免数据泄露并支持详细分析

主要研究内容

两大关键维度

推理生成：评估模型基于数学计算或逻辑推理的生成能力
知识迁移：评估模型利用新注入知识进行视觉生成的能力

数据集组成

推理生成数据集

数据来源: Hugging Face数据集 Yuwei-Niu/UniSandBox
数据类型: 数学推理和符号映射分割
具体数据集:
- math*_reject_5k：数学推理数据
- mapping*_1w_reject：符号映射数据
评估基准: benchmark/test_reasoning目录下的JSONL文件

知识迁移数据集

训练数据: data/knowledge目录下的JSONL文件
- Lysendria.jsonl
- Aurelius_Nyxella.jsonl
评估基准: benchmark/test_knowledge目录下的JSONL文件
- Aurelius.jsonl
- Aurelius_Nyxella.jsonl
- Lysendria_Kaelorix.jsonl

技术框架

基础模型: BAGEL-7B-MoT
训练方法: STARS（带拒绝采样的自训练框架）
评估模型: Qwen2.5-VL-7B-Instruct
推理服务: vLLM服务器

主要发现

理解与生成之间存在显著差距
显式思维链能有效弥合理解与生成间的差距
自训练方法可成功内化推理能力
基于查询的架构具有潜在的类思维链特性

数据访问

代码仓库: https://github.com/PKU-YuanGroup/UniSandBox
论文链接: https://arxiv.org/abs/2511.20561
模型地址: https://huggingface.co/
数据集地址: https://huggingface.co/datasets

搜集汇总

数据集介绍

构建方式

在统一多模态模型研究领域，UniSandbox采用解耦评估框架与合成数据构建方法，通过设计数学运算与符号映射两类核心任务，系统生成完全脱离预训练数据分布的测试样本。该框架利用GPT-4o生成具有渐进复杂度的推理链任务，通过精确控制任务难度层级与数据规模，构建了包含300个数学运算提示与600个符号映射提示的评估体系，有效规避了数据泄露风险。

特点

该数据集最显著的特征在于其精细化的任务解构能力，将模型理解能力划分为知识存储与逻辑推理两个独立维度。通过设计需要多步推理的数学运算任务与符号映射任务，数据集能有效检测模型从语言理解到视觉生成的转化瓶颈。特别引入的思维链模式可作为显式推理桥梁，其可控的合成数据特性为分析理解-生成鸿沟提供了理想实验环境。

使用方法

研究者在应用该数据集时需遵循两阶段评估协议：首先通过多模态大语言模型对生成图像进行描述性标注，继而进行语义一致性比对。数据集支持标准生成模式与思维链增强模式的对比实验，同时配套的自训练框架STARS支持通过课程学习策略逐步内化推理能力。在知识迁移任务中，可通过前向检索与逆向搜索两种路径验证模型的知识转化效率。

背景与挑战

背景概述

UniSandbox数据集由北京大学与香港大学MMLab等机构的研究团队于2025年联合提出，旨在系统探究统一多模态模型中理解能力对生成任务的实际影响。该数据集聚焦于多模态人工智能领域的核心科学问题，即模型内部的语言先验知识能否有效指导视觉生成过程。通过构建解耦评估框架与合成数据环境，UniSandbox为分析理解与生成之间的协同机制提供了可控实验平台，推动了多模态模型架构设计与训练策略的革新。

当前挑战

该数据集致力于解决统一多模态模型中理解与生成能力脱节的核心挑战，具体表现为模型在推理生成任务中难以将逻辑演绎转化为视觉输出，以及在知识迁移任务中无法有效传递新习得知识至生成模块。数据构建过程中面临合成数据生成复杂度的挑战，需设计数学运算与符号映射等任务链以规避数据泄露风险，同时需建立精细评估协议确保模型性能归因的准确性，避免浅层语义映射对实验结果造成干扰。

常用场景

经典使用场景

在统一多模态模型的研究领域，UniSandbox数据集作为解耦评估框架的典型应用，聚焦于探索模型理解能力如何影响生成任务。通过精心设计的数学运算与符号映射任务，该数据集能够系统评估模型在需要逻辑推理的视觉生成场景中的表现，例如要求模型根据算术表达式结果生成对应数量的物体，或通过多级符号映射规则推导目标对象。这种受控环境下的评估有效揭示了模型在推理生成任务中的核心瓶颈。

衍生相关工作

该数据集催生了多项重要衍生研究，其中基于STARS框架的课程学习策略成功解决了高阶符号映射任务中的训练难题，开创了渐进式推理能力内化的新范式。对查询式架构隐式推理特性的发现启发了后续研究对模型内部信息提取机制的深入探索。这些工作共同推动了统一多模态模型从简单映射向真正推理生成的范式转变，为后续如BAGEL、Blip3o等模型的架构优化提供了关键设计启示。

数据集最近研究