five

OpenUni Training Dataset

收藏
arXiv2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/wusize/OpenUni
下载链接
链接失效反馈
官方服务:
资源简介:
OpenUni 数据集是一个开放源代码的多模态理解和生成框架,由南洋理工大学 S-Lab, 商汤科技 SenseTime Research, 商汤科技和 Tetras.AI 的研究人员共同创建。该数据集包含约 2300 万个图像-文本对,用于训练和微调 OpenUni 模型,使其能够在图像生成和理解任务上取得优异的性能。数据集的创建过程采用了两阶段训练策略,首先在预训练阶段将大型语言模型和多模态模型进行对齐,然后在微调阶段使用高质量的数据进行优化。OpenUni 数据集的应用领域包括图像生成、多模态理解和世界知识理解,旨在解决多模态人工智能中的理解和生成任务统一问题。

The OpenUni Dataset is an open-source multimodal understanding and generation framework, co-created by researchers from S-Lab at Nanyang Technological University, SenseTime Research, SenseTime Group, and Tetras.AI. This dataset contains approximately 23 million image-text pairs, which are utilized to train and fine-tune the OpenUni model to achieve outstanding performance on image generation and understanding tasks. The dataset's creation process adopts a two-stage training strategy: first, aligning large language models with multimodal models during the pre-training phase, and then optimizing with high-quality data during the fine-tuning phase. The application domains of the OpenUni Dataset include image generation, multimodal understanding, and world knowledge understanding, aiming to resolve the unified challenge of understanding and generation tasks in multimodal artificial intelligence.
提供机构:
南洋理工大学 S-Lab, 商汤科技 SenseTime Research, 商汤科技和 Tetras.AI
创建时间:
2025-05-30
原始信息汇总

OpenUni数据集概述

基本信息

  • 名称: OpenUni
  • 类型: 多模态理解与生成基准模型
  • 开发者: Size Wu, Zhonghua Wu, Zerui Gong, Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy
  • 论文地址: https://arxiv.org/abs/2505.23661
  • 许可证: NTU S-Lab License 1.0

模型变体

模型名称 图像尺寸 MLMM模型 扩散模型 预训练权重 微调权重
OpenUni-B-512 512×512 InternVL3-1B SANA-0.6B-512px 预训练链接 微调链接
OpenUni-L-512 512×512 InternVL3-2B SANA-1.6B-512px 预训练链接 微调链接
OpenUni-L-1024 1024×1024 InternVL3-2B SANA1.5-1.6B-1024px 预训练链接 微调链接

主要功能

  1. 生成高质量且符合指令的图像
  2. 在标准基准测试(GenEval, DPG-Bench, WISE)上表现优异

技术特点

  • 激活参数仅1.1B和3.1B
  • 基于InternVL3作为多模态LLM基础
  • 使用SANA作为扩散模块

使用说明

  • 权重下载: 通过HuggingFace Hub下载 bash huggingface-cli download wusize/openuni --local-dir checkpoints --repo-type model

  • 推理指南: 参考docs/INFERENCE.md

  • 评估方法: 参考docs/EVALUATION.md

致谢

  • SANA
  • InternVL3
  • MetaQuery
  • BLIP3-o团队
搜集汇总
数据集介绍
main_image_url
构建方式
OpenUni数据集的构建采用了高效的两阶段训练策略,旨在最小化训练复杂性和开销。第一阶段为预训练阶段,通过冻结多模态大语言模型(MLLM)和扩散模型的参数,仅训练可学习的查询和轻量级连接器,以对齐23M个图像-文本对。这些图像来源于公开数据集,并通过大语言模型重新标注。第二阶段为微调阶段,解锁扩散模型参数,使用BLIP3-o提供的60k高质量图像进行精细调整,以提升生成质量和指令遵循能力。
特点
OpenUni数据集具有显著的特点,包括其轻量化的架构设计和高效的参数利用。该数据集基于InternVL3和SANA模型构建,仅需1.1B至3.1B激活参数即可实现高性能的多模态理解和生成任务。其在GenEval、DPGBench和WISE等标准基准测试中表现优异,尤其在文本到图像生成任务中,能够生成高质量且与指令高度对齐的图像。此外,数据集完全开源,包含模型权重、训练代码和23M图像-文本对,为社区研究提供了便利。
使用方法
OpenUni数据集的使用方法灵活多样,适用于多模态理解和生成任务的研究。用户可通过其开源框架直接加载预训练模型进行图像生成或理解任务。在生成任务中,模型能够根据用户指令生成高分辨率图像;在理解任务中,模型继承了InternVL3的强大视觉感知和推理能力,适用于复杂的视觉问答和推理任务。此外,数据集还支持自定义训练和微调,用户可根据需求调整模型参数或引入新的训练数据,以优化特定任务的性能。
背景与挑战
背景概述
OpenUni Training Dataset是由南洋理工大学S-Lab、商汤研究院和Tetras.AI的研究团队于2025年发布的开放多模态理解与生成基准数据集。该数据集作为OpenUni框架的核心组成部分,包含2300万高质量图文对,旨在推动多模态大语言模型(MLLMs)与扩散模型的高效协同训练。研究团队通过创新的两阶段训练策略,首次实现了冻结参数的多模态大模型与轻量化连接器的有效对齐,在仅激活1.1B-3.1B参数的情况下,在GenEval、DPGBench和WISE等基准测试中达到商业级多模态模型的性能水平。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需要解决多模态任务中理解与生成的表征粒度冲突问题,即如何使单一模型同时处理视觉语义解析(细粒度)和图像合成(粗粒度)的异构需求;在构建过程层面,主要挑战包括:1)大规模图文对的语义对齐质量控制,特别是LLM重标注带来的描述一致性维护;2)轻量化连接器设计中的信息瓶颈问题,需在六层Transformer架构内实现跨模态特征的有效转换;3)高分辨率图像生成时的计算效率优化,需平衡1024px输出质量与训练开销的矛盾。
常用场景
经典使用场景
OpenUni数据集在计算机视觉与自然语言处理的交叉领域具有广泛的应用价值,其经典使用场景主要集中在多模态理解与生成任务的联合训练。通过整合2300万高质量的图像-文本对,该数据集为研究者提供了一个统一的基准平台,用于探索视觉-语言模型的联合优化。特别是在指令跟随的图像生成任务中,OpenUni展示了出色的性能,能够根据复杂文本描述生成高保真度的图像,同时保持对视觉内容语义的准确理解。
衍生相关工作
该数据集催生了系列创新研究,包括MetaQuery提出的可学习查询机制、BLIP3-o的跨模态对齐方法等关键突破。后续工作如Harmon通过表征调和框架扩展了多模态统一能力,Janus-Pro则探索了专家混合架构。这些衍生研究共同推动了轻量化多模态模型的发展,在MMBench等理解任务和WISE知识评测中持续刷新性能记录,形成完整的技术演进脉络。
数据集最近研究
最新研究方向
在计算机视觉与多模态人工智能领域,OpenUni Training Dataset作为支持统一多模态理解与生成的基准数据集,近期研究聚焦于轻量化架构设计与高效训练策略的创新。该数据集通过桥接预训练多模态大语言模型(MLLMs)与扩散模型,采用可学习查询和轻量级连接器的简约设计,在仅激活1.1B至3.1B参数条件下,实现了图像生成质量与多模态理解性能的协同优化。前沿探索主要围绕三个维度展开:一是通过两阶段训练策略(预训练对齐+高质量微调)解决异构任务表征冲突,二是在GenEval、DPGBench等基准测试中验证了其生成指令对齐图像的卓越能力,三是开源模型权重与23M图像-文本对数据推动社区在可控生成、知识迁移等方向的发展。当前研究热点包括扩散变换器架构优化、冻结模型的知识蒸馏,以及文本-图像语义对齐的细粒度评估,这些工作正逐步突破多模态系统在计算效率与任务通用性之间的平衡瓶颈。
相关研究论文
  • 1
    OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation南洋理工大学 S-Lab, 商汤科技 SenseTime Research, 商汤科技和 Tetras.AI · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作