TWIG-50K

Name: TWIG-50K
Creator: 香港中文大学, 美团
Published: 2025-11-21 02:59:52
License: 暂无描述

arXiv2025-11-21 更新2025-11-22 收录

下载链接：

https://github.com/ZiyuGuo99/Thinking-while-Generating

下载链接

链接失效反馈

官方服务：

资源简介：

TWIG-50K是由香港中文大学与美团联合构建的大规模多模态数据集，专为视觉生成中的文本推理任务设计。该数据集包含5万条高质量样本，涵盖丰富的文本-视觉对齐数据，源自人工标注与自动化流程的结合。其核心应用于增强生成模型在复杂场景下的语义控制能力，通过监督微调有效解决视觉幻觉与指令遵循问题，推动交互式视觉合成技术的发展。

TWIG-50K is a large-scale multimodal dataset jointly developed by The Chinese University of Hong Kong and Meituan, specifically designed for text reasoning tasks in visual generation. This dataset contains 50,000 high-quality samples covering rich text-vision aligned data, which is derived from a combination of manual annotation and automated workflows. Its core application is to enhance the semantic control ability of generative models in complex scenarios, effectively addressing visual hallucination and instruction following issues via supervised fine-tuning, and promoting the development of interactive visual synthesis technologies.

提供机构：

香港中文大学, 美团

创建时间：

2025-11-21

原始信息汇总

Thinking-while-Generating (TwiG) 数据集概述

数据集基本信息

数据集名称: Thinking-while-Generating (TwiG)
数据集规模: TwiG-50K
官方存储库: https://github.com/ZiyuGuo99/Thinking-while-Generating
关联论文: "Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation"

核心创新

首创框架: 首个将文本推理交织在整个视觉合成过程中的框架
方法特点: 在生成过程中直接将文本思考编织到展开的画布中
技术优势: 在生成过程中提供实时语义指导和反思

框架架构

TwiG将生成过程解耦为三个核心模块：

调度模块: 决定何时思考
推理模块: 决定说什么
反思模块: 决定如何优化

可视化展示

定性比较: 展示与其他方法的对比效果
反思能力: 展示框架的反思优化能力
思考过程: 展示完整的思考生成过程

引用信息

bibtex @article{guo2026thinking, title={Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation}, author={Guo, Ziyu and Zhang, Renrui and Li, Hongyu and Zhang, Manyuan and Chen, Xinyan and Wang, Sifan and Feng, Yan and Pei, Peng and Heng, Pheng-Ann}, journal={arXiv:2511.16671}, year={2025} }

搜集汇总

数据集介绍

构建方式

TWIG-50K数据集通过多阶段合成监督流程构建，首先从T2I-CompBench训练集中选取5.5K文本提示，利用GPT-4o生成分步子标题将图像语义划分为上中下三个连贯区域。这些子标题经GPT-4o-Image合成符合分区语义的图像后，经过质量筛选并重组为交错推理格式。反思阶段通过GPT-4o对每个区域进行五维评分并生成修订子标题，生成任务则基于累积推理文本与视觉上下文构建文本到图像的训练实例。

特点

该数据集以交错推理为核心特征，将视觉生成过程解构为思维、生成与反思三个子任务的协同循环。其数据样本严格遵循三阶段分区结构，确保语义连贯性与空间逻辑性，同时通过局部修订机制实现细粒度对齐。数据集覆盖多维度评估标准，包括颜色准确性、对象完整性等五类批判指标，为模型提供兼具全局规划与动态修正能力的训练基础。

使用方法

使用TWIG-50K时需将生成任务划分为九个监督目标，包括三个区域思维任务、三个反思评分任务与三个视觉生成任务。训练时采用均衡的思维与生成数据配比，将文本提示与历史推理内容作为条件输入，引导模型在单次生成轨迹中实现文本推理与视觉合成的交错演进。该数据集适用于统一多模态模型的端到端训练，无需图像到图像功能即可提升组合生成质量。

背景与挑战

背景概述

TWIG-50K数据集于2025年由香港中文大学、MMLab及美团联合团队发布，聚焦于视觉生成与文本推理的深度融合研究。该数据集旨在解决传统视觉生成模型在长程构图、多实体关系及细粒度指令遵循方面的局限性，通过引入'生成中思考'的创新框架，推动文本推理与视觉合成的动态协同演化。其核心贡献在于首次实现了文本推理在生成过程中的实时交织，为多模态生成模型的发展提供了关键数据支撑，显著提升了生成内容的语义丰富度与上下文一致性。

当前挑战

TWIG-50K需应对视觉生成领域的两类核心挑战：其一，在领域问题层面，需突破静态预规划或后修正范式的束缚，实现生成过程中对复杂语义关系、空间逻辑及属性绑定的动态建模；其二，在构建过程中，面临多模态数据对齐的复杂性，包括文本推理步骤的时序调度优化、局部区域生成与全局一致性的平衡，以及反射机制中批判性评估与修正指令的精准标注。此外，数据集需确保跨模态交互的粒度与可控性，避免生成轨迹中断或语义漂移。

常用场景

经典使用场景

在视觉生成领域，TWIG-50K数据集为文本到图像合成任务提供了关键支持，其核心价值在于实现了文本推理与视觉生成的交织互动。该数据集通过将生成过程分解为多个语义区域，引导模型在合成每个局部时进行实时文本思考与反馈，从而显著提升了长程构图、多实体关系处理等复杂场景的生成质量。这种交织式框架使得模型能够动态调整生成策略，在保持全局一致性的同时增强细节表现力，为视觉生成系统赋予了更精细的语义控制能力。

衍生相关工作

基于TWIG-50K衍生的经典研究包括零样本提示优化、监督微调与强化学习三大技术路线。后续工作如TWIG-GRPO算法通过策略优化进一步提升交织推理的稳定性，而Think-Gen-equal等训练策略则推动了多任务学习的平衡发展。这些研究不仅完善了交织生成的理论体系，更催生了面向视频生成、3D内容创建等跨模态任务的扩展框架，形成了以动态推理为核心的技术生态。

数据集最近研究