Structured Image Dataset
收藏arXiv2025-10-07 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/JackyZhuo/SructVisuals
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了一个用于结构化图像生成和编辑的数据集,包括一个全面的基准测试,一个具有思维链标注的大规模训练语料库和一个强大的统一模型。数据集由130万个高质量的结构化图像对组成,这些图像对来源于可执行的绘图程序,并辅以思维链推理标注。数据集的创建过程包括从可执行绘图程序中收集数百万个程序,将它们渲染成种子图像,然后在代码层面进行编辑以构建配对的代码-编辑示例,最后将这些示例渲染成图像-编辑对。该数据集旨在解决现代视觉生成模型在创建或编辑结构化视觉(如图表、图形和数学图形)方面的挑战,这些模型需要布局规划、文本渲染和多模态推理以确保事实准确性。
This paper presents a dataset for structured image generation and editing, which includes a comprehensive benchmark, a large-scale training corpus with chain-of-thought annotations, and a powerful unified model. The dataset consists of 1.3 million high-quality structured image pairs derived from executable drawing programs, supplemented with chain-of-thought reasoning annotations. The dataset creation process involves collecting millions of programs from executable drawing programs, rendering them into seed images, editing at the code level to construct paired code-editing examples, and finally rendering these examples into image-editing pairs. This dataset aims to address the challenges faced by modern visual generative models when creating or editing structured visual content such as charts, diagrams, and mathematical graphics, which require layout planning, text rendering, and multimodal reasoning to ensure factual accuracy.
提供机构:
CUHK MMLab, Beihang University, Krea AI, Shanghai Jiao Tong University, Shanghai AI Lab, Hugging Face, National University of Singapore, ByteDance, The University of Hong Kong
创建时间:
2025-10-07
搜集汇总
数据集介绍

构建方式
在结构化视觉生成领域,数据构建面临精确性与可验证性的双重挑战。本研究通过程序化代码渲染与多模态标注相结合的方式,构建了包含130万高质量图像对的大规模数据集。具体流程首先从Python和LaTeX等编程语言中收集约200万条绘图程序,经执行验证后保留有效代码-图像对;随后利用GPT-5分析图像视觉特征,同步生成语义对齐的代码编辑指令与图像编辑指令,通过代码级修改确保状态转换的严格可验证性;最后经过规则过滤与推理轨迹标注,形成兼具程序精确性与语义丰富性的训练资源。
特点
该数据集在结构化视觉表征方面展现出三大核心特性:其严格的代码-图像对齐机制确保了生成过程的确定性,每条数据均包含源目标图像对、文本描述及编辑指令构成的完整元组;覆盖数学图表、科学图示、几何图形等六大类别的多样性构成,有效拓展了模型对非自然图像分布的适应能力;尤为突出的是每条样本附带的思维链推理标注,通过三阶段分析框架为复杂编辑任务提供显式推理轨迹,显著增强了模型对结构化语义的理解深度。这种多维度特性融合使数据集成为推动事实性视觉生成研究的关键基础设施。
使用方法
该数据集支撑了从基础对齐到推理增强的三阶段训练范式。在统一对齐阶段,通过冻结主干网络仅训练轻量级连接器,实现视觉语言模型与生成模型的特征融合;混合视觉学习阶段联合优化扩散主干与连接器,引入掩码训练策略平衡自然图像与结构化视觉的像素分布差异;思维增强阶段则利用链式推理标注作为长上下文输入,将复杂任务分解为分析-规划-生成的递进流程。在推理阶段可结合外部推理器进行多轮视觉分析,通过显式推理轨迹引导生成过程,这种使用方法在StructBench基准测试中展现出对复杂编辑任务47%的性能提升。
背景与挑战
背景概述
Structured Image Dataset由香港中文大学多媒体实验室、北京航空航天大学等机构的研究团队于2025年提出,旨在解决结构化视觉内容生成与编辑中的关键难题。该数据集聚焦于图表、数学图形、科学图解等非自然图像领域,通过可执行绘图程序构建了130万对高质量图像样本,并辅以思维链推理标注。其核心研究在于突破传统生成模型对美学自然图像的局限,推动多模态基础模型在结构化视觉领域的统一化发展,为科学可视化、教育技术等应用提供了重要数据支撑。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,结构化图像生成需克服组合规划、文本渲染与多模态推理的协同难题,确保如数学公式数值精度、图表数据一致性等事实保真度;在构建过程中,通过代码级编辑操作实现严格对齐的图像状态转换,并利用大语言模型生成原子化问答对以降低评估幻觉,但程序渲染的多样性覆盖与复杂推理轨迹的标注质量仍需持续优化。
常用场景
经典使用场景
在结构化视觉生成领域,该数据集通过程序化代码渲染构建了130万对高质量图像样本,涵盖图表、数学图形、科学图示等六类结构化内容。其核心应用场景在于训练多模态生成模型,通过代码-图像的严格对齐机制,为模型提供精确的语义监督信号,显著提升生成结果的逻辑一致性与事实准确性。
实际应用
该数据集支撑的教育科研工具可实现自动化图表生成与动态修改,辅助研究人员快速创建学术演示材料。在商业智能领域,其衍生的编辑模型能够实时调整数据可视化样式,满足动态报表生成需求。此外,该技术还可应用于交互式数学教学系统,通过程序化生成几何图形提升知识传递效率。
衍生相关工作
基于该数据集训练的FLUX.1 Kontext融合模型开创了结构化视觉生成新范式,其轻量级连接器架构启发了后续多模态对齐研究。衍生的StructBench评估框架已成为领域标准测试集,推动了一系列改进模型的出现,包括增强推理能力的Bagel-Think模型和采用三阶段训练的Qwen-Edit系统,持续拓展结构化视觉的技术边界。
以上内容由遇见数据集搜集并总结生成



