CoT reasoning dataset of written rationales

Name: CoT reasoning dataset of written rationales
Creator: 上海科技大学, 微软公司, 复旦大学
Published: 2025-05-31 01:59:48
License: 暂无描述

arXiv2025-05-31 更新2025-06-03 收录

下载链接：

https://aka.ms/reasongen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CoT推理数据集，包含20万个样本，由LAION美学子集构建，并经过GPT-4.1-mini的精心标注，每个样本包含丰富的推理轨迹，覆盖各种推理场景。数据集旨在帮助模型探索推理过程，并利用多模态LLM作为奖励模型，引导模型进行更合适的推理。

This dataset, designated as the Chain-of-Thought (CoT) Reasoning Dataset, comprises 200,000 samples. It is constructed from the American academic subset of LAION and meticulously annotated by GPT-4.1-mini. Each sample contains comprehensive reasoning traces spanning diverse reasoning scenarios. The dataset aims to assist models in exploring their reasoning processes, and employs multimodal Large Language Models (LLMs) as reward models to guide models to produce more appropriate reasoning outputs.

提供机构：

上海科技大学, 微软公司, 复旦大学

创建时间：

2025-05-31

搜集汇总

数据集介绍

构建方式

该数据集的构建基于LAION-Aesthetic V1数据集，从中精选了20万张高质量图像，并通过GPT-4.1模型生成多层次的文本描述。首先，利用GPT-4.1 Small为每张图像生成简洁的标题，捕捉关键视觉元素如物体颜色、数量和空间关系。随后，通过GPT-4.1 Nano对简洁标题进行多样化扩展，生成包括标签、改写版本和风格化描述在内的增强文本。最后，基于简洁标题生成详细的推理轨迹描述，形成完整的<指令，推理，图像>三元组。这一流程确保了数据集的多样性和逻辑连贯性，同时避免了信息泄露问题。

特点

该数据集的核心特点在于其融合了视觉生成与文本推理的双重能力。首先，它提供了丰富的多粒度文本描述，从简洁对象标签到详细场景推理，覆盖了生成模型所需的多样化输入。其次，数据集通过严格的构建流程确保了文本与图像的高质量对齐，其中推理文本仅基于简洁标题生成，避免了额外视觉信息的干扰。此外，数据集的样本涵盖了物体计数、空间关系、复杂属性等多种推理场景，为模型提供了全面的训练素材。特别值得注意的是，数据集中每个样本都遵循“指令→推理→图像”的连贯序列结构，为模型学习跨模态推理提供了天然的训练框架。

使用方法

该数据集主要用于训练和评估具备推理能力的自回归图像生成模型。在使用时，首先通过监督微调阶段让模型学习从简洁指令生成连贯的推理文本，再过渡到图像生成。具体而言，每个训练序列以简洁提示开始，接续详细的推理描述，最后通过特殊图像起始标记触发视觉输出。在强化学习阶段，数据集中的推理-图像对可作为参考轨迹，通过预训练的视觉-语言模型（如Qwen-2.5-VL）评估生成质量并提供奖励信号。评估时可重点关注模型在组合提示、属性绑定和空间关系等复杂任务上的表现，通过对比生成图像与推理文本的一致性来衡量模型的推理能力。

背景与挑战

背景概述

CoT reasoning dataset of written rationales是由微软亚洲研究院与上海科技大学、复旦大学等机构的研究人员于2025年提出的创新性数据集，旨在推动自回归图像生成模型的推理能力发展。该数据集作为ReasonGen-R1框架的核心组成部分，首次将链式思维（CoT）推理机制引入视觉生成领域，通过20万条从LAION美学数据集精选的样本，结合GPT-4.1生成的详细推理轨迹，构建了<指令,推理链,图像>的三元组结构。其突破性在于实现了文本推理与图像生成的模态交织，为多模态内容创作建立了'思考-生成'的新范式，显著提升了生成模型在复杂指令遵循和场景规划方面的性能。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决传统图像生成模型缺乏显式推理能力的关键瓶颈，要求模型同时处理跨模态序列生成中的语义对齐与视觉一致性；在构建过程中，需克服GPT-4.1生成推理链时可能引入的视觉信息泄露风险，通过严格的'仅文本输入'标注策略确保推理轨迹与简洁提示的严格对应。此外，数据平衡性挑战尤为突出，需协调文本推理的丰富性与生成图像质量之间的权衡，避免因过度强调推理细节导致图像保真度下降。

常用场景

经典使用场景

在视觉生成模型的推理能力研究中，CoT reasoning dataset of written rationales数据集被广泛应用于训练和评估自回归图像生成模型。该数据集通过结合链式思维（CoT）推理，使模型能够在生成图像之前进行详细的文本推理，从而提升图像生成的准确性和可控性。典型的使用场景包括多模态任务中的图像生成、视觉问答以及复杂场景的合成。

衍生相关工作

该数据集衍生了一系列经典工作，如ReasonGen-R1框架，该框架结合了监督微调（SFT）和强化学习（RL）来优化图像生成模型。此外，基于该数据集的后续研究还探索了多模态推理、跨模态对齐以及生成模型的解释性增强，推动了视觉生成领域的技术进步。

数据集最近研究