PairUG

Name: PairUG
Creator: 字节跳动
Published: 2025-10-30 00:47:02
License: 暂无描述

arXiv2025-10-30 更新2025-10-31 收录

下载链接：

https://github.com/Haochen-Wang409/PairUni

下载链接

链接失效反馈

官方服务：

资源简介：

PairUG数据集是字节跳动公司创建的一个高质量的统一视觉-语言模型训练数据集，包含16K对理解-生成（UG）样本，用于强化学习微调。该数据集通过将数据重组为理解-生成对，并据此对数据进行对齐优化，旨在解决统一视觉-语言模型在强化学习中存在的理解与生成任务不平衡的问题。

PairUG Dataset is a high-quality unified vision-language model training dataset created by ByteDance. It contains 16K pairs of Understanding-Generation (UG) samples for reinforcement learning fine-tuning. This dataset reorganizes data into Understanding-Generation pairs and conducts alignment optimization based on these pairs, aiming to resolve the imbalance issue between understanding and generation tasks of unified vision-language models during reinforcement learning.

提供机构：

字节跳动

创建时间：

2025-10-30

原始信息汇总

PairUni数据集概述

数据集基本信息

数据集名称：PairUni
核心功能：统一多模态训练框架
主要用途：统一视觉语言模型的理解和生成任务训练

方法概述

核心创新：将数据重组为理解-生成对
数据增强：使用GPT-o3为理解样本生成描述，为生成样本生成问答对
配对结构：
- 对齐对：来自相同实例
- 检索对：语义相关的不同数据点
训练框架：Pair-GRPO（基于组相对策略优化的配对感知变体）

数据集详情

数据集名称：PairUG
数据规模：16K理解-生成对
数据格式：JSONL格式
评估模型：Janus-Pro UVLMs

数据格式规范

json { "similarity": 0.88, "generate_ann": { "image_path": "data/images/geneval_train_e52c9d7d6c674fd8b2c8b5d2ec43efac.png", "prompt": "a photo of a towel and a zebra", "question": "Which statement best describes the contrast between the material draped on the animal and the animal’s own surface pattern? A. The fabric is smooth and plain, whereas the coat shows bold stripes. B. Both the fabric and the coat display identical striping. C. The fabric is covered with polka dots, while the coat is entirely plain. D. The fabric appears coarse and burlap-like, while the coat looks scaly.

Answer with the options letter from the given choices directly.", "answer": "A", "tag": "geneval_train" }, "understand_ann": { "image_path": "data/images/detection_f2436089737d4f0181f246926c8a2558.png", "prompt": "In open savanna grassland, a small cluster of five plains zebras stands closely together, black-and-white striped bodies angling different directions amid tall yellowish grass under daylight, with erect manes and ears.", "question": "What type of pattern dominates the animals’ coats? A. Stripes B. Polka dots C. Solid gray D. Checkered

Answer with the options letter from the given choices directly.", "answer": "A", "tag": "detection" } }

项目结构

PairUni/ ├── janus/ # Janus模型实现 ├── open_r1/ # PairGRPO训练框架 ├── rewards/ # 奖励模型 ├── configs/ # 训练配置 └── train.sh # 训练启动脚本

引用信息

bibtex @article{pairuni2024, title={PairUni: Unified Multimodal Training with GRPO}, author={Your Name}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2024} }

许可证

Apache License 2.0

搜集汇总

数据集介绍

构建方式

在统一视觉语言模型研究领域，PairUG数据集通过创新的数据配对策略构建而成。该数据集从理解数据U和生成数据G两个异构源出发，采用GPT-o3智能增强技术为理解样本生成描述性提示，为生成样本合成问答对，形成源自同一实例的完整四元组对齐配对。同时基于图像嵌入相似性检索，构建跨实例但语义相关的检索配对，最终通过聚类算法筛选代表性样本，形成包含16,320个高质量样本的配对数据集。

特点

PairUG数据集展现出独特的双重结构特征。其对齐配对保证了理解与生成任务在相同视觉上下文的语义一致性，有效消除任务间的语义漂移；检索配对则通过跨实例语义关联扩展了数据覆盖范围，增强模型的泛化能力。数据集采用几何代表性筛选机制，确保样本既具备语义丰富性又能反映数据分布特征，这种精心设计的配对结构为多模态任务的协同优化提供了理想的数据基础。

使用方法

该数据集专为强化学习环境下的统一多模态模型训练而设计。在Pair-GRPO算法框架中，数据集中的理解-生成配对作为基本训练单元，通过相似度加权机制调节优势函数计算。对齐配对获得完整权重，检索配对则根据相似度得分进行降权处理，这种设计强化了高质量监督信号的学习效果，同时减弱了弱匹配样本的干扰。训练过程中，模型通过配对结构同时处理理解与生成任务，实现跨任务语义对应的显式学习，有效提升策略更新的稳定性与一致性。

背景与挑战

背景概述

PairUG数据集由字节跳动研究团队于2025年创建，旨在解决统一视觉语言模型在理解与生成任务协同优化中的核心难题。该数据集作为PairUni框架的关键组成部分，通过将异构的多模态数据重组为理解-生成对齐样本对，为强化学习训练提供高质量监督信号。其创新性在于构建了两种互补的数据对结构：基于同一实例的精确对齐对和通过语义检索构建的关联对，有效促进了跨任务语义对应关系的学习，推动了统一多模态模型在复杂推理与生成任务上的平衡发展。

当前挑战

PairUG数据集致力于攻克统一视觉语言模型中理解与生成任务的优化冲突问题，其核心挑战在于异构监督信号导致的梯度竞争与性能失衡。在构建过程中面临双重困难：一是原始理解数据与生成数据在语义和格式上的固有差异，需通过GPT-o3智能增强与聚类筛选实现高质量对齐；二是检索对构建需在跨实例语义关联与噪声控制间取得平衡，依赖精细化的相似度阈值与贪婪匹配算法来保证数据对的可靠性与多样性。

常用场景

经典使用场景

在统一视觉语言模型的研究领域中，PairUG数据集主要应用于多模态理解与生成的联合优化场景。该数据集通过构建理解-生成对（UG pairs），为模型提供语义对齐的训练样本，使得单一架构能够同时处理视觉问答和图像生成任务。其经典使用方式体现在强化学习微调阶段，通过Pair-GRPO算法实现跨任务语义对应关系的有效学习，从而在MMMU、MMStar等基准测试中取得平衡的性能提升。

解决学术问题

该数据集有效解决了统一视觉语言模型中理解与生成任务因异构监督信号导致的优化冲突问题。通过构建对齐对和检索对两种数据结构，缓解了传统方法中因数据格式差异引起的梯度竞争现象。其实验结果表明，该方法显著提升了梯度余弦相似度（从0.059提升至0.16），在MMMU和GenEval等基准上实现了理解准确率与生成质量的同步增长，为多模态联合学习提供了可复现的优化范式。

衍生相关工作

基于PairUG数据集的创新范式催生了系列延伸研究。Janus-Pro团队在后续工作中采纳了语义对齐策略，DSR方法引入双源奖励机制强化了配对数据的利用效率。在架构层面，Lumina-DiMOO通过适配Pair-GRPO算法验证了该范式在扩散模型的普适性。这些衍生工作共同推动了多模态学习从任务分离到协同进化的范式转变，为构建下一代通用人工智能系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集