five

IRGL-300K

收藏
arXiv2025-09-09 更新2025-09-10 收录
下载链接:
https://github.com/Osilly/Interleaving-Reasoning-Generation
下载链接
链接失效反馈
官方服务:
资源简介:
IRGL-300K是一个包含300,000条数据的数据集,由华东师范大学、香港中文大学、小红书、加州大学洛杉矶分校、浙江大学、牛津大学的研究人员共同创建。该数据集旨在用于训练一个名为Interleaving Reasoning Generation (IRG)的文本到图像生成模型。数据集包括六个分解的学习模式,共同覆盖了基于文本的思考和完整的思考-图像轨迹。数据集的创建过程包括两个阶段的训练,首先建立强大的思考和反思,然后利用完整的思考-图像轨迹数据有效地调整IRG流程。IRG在多个基准测试中取得了最先进的性能,并在视觉质量和细粒度保真度方面取得了显著的改进。

IRGL-300K is a dataset consisting of 300,000 instances, jointly created by researchers from East China Normal University, The Chinese University of Hong Kong, Xiaohongshu, University of California, Los Angeles, Zhejiang University, and the University of Oxford. This dataset is intended for training a text-to-image generation model named Interleaving Reasoning Generation (IRG). The dataset includes six decomposed learning paradigms that collectively cover text-based thinking and complete thinking-to-image trajectories. The dataset creation process involves two-stage training: first establishing robust thinking and reflection capabilities, then leveraging complete thinking-to-image trajectory data to effectively fine-tune the IRG pipeline. IRG has achieved state-of-the-art performance across multiple benchmarks, with notable improvements in visual quality and fine-grained fidelity.
提供机构:
华东师范大学、香港中文大学、小红书、加州大学洛杉矶分校、浙江大学、牛津大学
创建时间:
2025-09-09
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Interleaving Reasoning Generation
  • 官方仓库:https://github.com/Osilly/Interleaving-Reasoning-Generation
  • 关联论文:Interleaving Reasoning for Better Text-to-Image Generation(https://arxiv.org/abs/2509.06945)

性能表现

模型 GenEval WISE TIIF-short/long (Qwen) GenAI-Bench OneIG-EN
Janus-Pro-7B 0.80 0.35 65.38/61.10 0.75 0.267
FLUX.1-dev 72.9 0.50 66.24/66.72 0.76 0.434
Show-o2 0.76 0.61 62.80/63.87 0.75 0.308
BAGEL 0.78 0.52 70.97/71.79 0.79 0.361
BAGEL w/ self-CoT 0.79 0.70 68.06/68.78 0.81 0.324
IRG 0.85 0.77 76.00/73.77 0.84 0.415

方法概述

  • 核心思想:交错推理生成(Interleaving Reasoning Generation,IRG)
  • 流程:给定提示词,模型首先生成基于文本的推理过程,然后基于该推理生成图像。接着,在初始图像的基础上,模型反思如何改进质量,并通过反思过程生成优化后的图像。
  • 优势:通过多轮推理显著提升图像生成质量,包括增强渲染纹理、阴影真实感等视觉属性,以及改进精细细节(如手指结构)。

时间线

  • 2025年9月8日:IRG论文(Interleaving Reasoning for Better Text-to-Image Generation)发布于arXiv。

状态说明

  • 数据集、代码和权重尚未发布,请持续关注。
搜集汇总
数据集介绍
main_image_url
构建方式
IRGL-300K数据集采用多阶段构建策略,通过六种分解学习模式系统化组织数据。初始推理阶段数据源自开源文本-图像对数据集,利用大型语言模型生成与提示词和图像一致的理论过程;改进推理阶段则基于基础模型生成的初始图像与高质量目标图像的对比,通过指令模板引导生成改进性思考。高质量图像数据通过GPT-4o生成,确保视觉保真度,并采用Qwen2.5-VL模型生成文本推理内容,最终形成30万规模的跨模态推理-生成轨迹数据。
特点
该数据集的核心特征体现在其结构化多模态交互范式,涵盖初始推理生成与改进推理生成的双阶段学习目标。数据包含文本推理序列与对应图像生成的完整轨迹,支持模型学习从语义理解到视觉实现的端到端映射。其独特价值在于融合了高质量视觉数据与精细化文本推理监督,既能强化基础生成能力,又能通过反射机制提升细节渲染质量,为交织推理生成任务提供了多层次、多粒度的训练样本。
使用方法
数据集支持两阶段训练范式:第一阶段聚焦文本推理能力培养,通过六种分解模式训练模型生成准确的初始推理和改进性反思;第二阶段利用完整推理-图像轨迹数据优化端到端生成流程。实际应用中,模型接收文本提示后首先生成推理文本和初始图像,继而基于图像特征进行反思并生成优化图像。推理时采用定制化的分类器自由引导策略,通过图像条件与文本条件的协同调控,确保生成结果在视觉质量与语义一致性上的双重提升。
背景与挑战
背景概述
IRGL-300K数据集由华东师范大学、香港中文大学、小红书等机构联合研发,于2025年9月首次提出,旨在推动交错推理生成技术在文本到图像生成领域的发展。该数据集聚焦于通过多模态模型的交错推理能力,解决复杂指令跟随与细节保真度的核心问题,显著提升了生成图像的语义一致性与视觉质量。其创新性训练范式为统一多模态理解与生成模型设立了新基准,对计算机视觉与生成式人工智能领域产生深远影响。
当前挑战
该数据集主要应对文本到图像生成中高保真指令跟随与细节渲染的挑战,包括复杂语义理解、细粒度纹理生成及多模态推理一致性等难题。构建过程中面临高质量图像数据稀缺、初始图像与优化图像配对困难,以及多阶段推理轨迹标注复杂度高等问题,需依赖大语言模型与生成模型协同完成数据蒸馏与重构。
常用场景
经典使用场景
在文本到图像生成领域,IRGL-300K数据集被广泛用于训练和评估多模态统一模型,特别是那些支持交错推理生成范式的系统。该数据集通过提供结构化的文本推理序列与对应的高质量图像对,使模型能够学习从初始提示到精细化图像生成的完整轨迹。典型应用包括基于多轮推理的图像生成任务,其中模型首先生成文本思考过程,随后根据该推理生成初始图像,并通过反思步骤进一步优化视觉细节和整体质量。
实际应用
在实际应用中,IRGL-300K数据集推动了智能内容创作工具的发展,特别是在需要高精度视觉细节和复杂指令遵循的场景中。例如,在广告设计、教育媒体制作和虚拟场景构建中,基于该数据集训练的模型能够生成更具视觉吸引力和语义一致性的图像。其改进的反射生成能力还应用于自动化图像编辑系统,通过多轮推理逐步优化纹理、阴影和细微结构,满足专业级视觉内容的需求。
衍生相关工作
IRGL-300K数据集衍生了一系列经典研究工作,包括基于自洽推理的文本到图像生成模型(如BAGEL with self-CoT)、多轮反射优化框架(如T2I-R1)以及统一多模态理解与生成架构的扩展。这些工作进一步探索了交错推理在视觉质量提升、细粒度控制和人机协作生成中的应用,推动了多模态推理生成领域的标准化评估和模型进化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作