O(200k) synthetically-generated sketches
收藏arXiv2025-11-01 更新2025-11-04 收录
下载链接:
https://github.com/google-deepmind/sketch_to_layout
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了名为“O(200k) synthetically-generated sketches”的数据集,该数据集由Google DeepMind的研究团队创建,包含约20万个由算法生成的草图,旨在用于训练视觉语言模型(VLMs),以解决草图到布局生成的问题。这些草图是根据现有文档和布局数据集的结构合成的,旨在模拟人类设计师的草图风格。数据集的发布将有助于推进草图指导的布局生成研究,并促进更直观的设计体验的发展。
This paper introduces a dataset named "O(200k) synthetically-generated sketches", which was created by the research team at Google DeepMind. The dataset contains approximately 200,000 algorithmically generated sketches, and is intended for training Vision-Language Models (VLMs) to solve the sketch-to-layout generation task. These sketches are synthesized based on the structures of existing document and layout datasets, designed to mimic the sketching styles of human designers. The release of this dataset will help advance research on sketch-guided layout generation and facilitate the development of more intuitive design experiences.
提供机构:
Google DeepMind
创建时间:
2025-11-01
原始信息汇总
Sketch-to-Layout 数据集概述
数据集简介
该数据集用于论文《Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation》,包含两种主要数据类型:手绘资源基元和布局合成草图。
数据组成
手绘资源基元
- 数据格式:InkML格式
- 来源:从PubLayNet、DocLayNet和SlideVQA数据集中采样文本和图像基元
- 标注过程:10名人类标注者在资源基元上绘制基于墨水的手绘基元
- 数量统计:
- 图像基元:408个
- 文本基元:612个
元数据信息
每个资源基元通过InkML注释元素包含以下元数据:
sourceDataset:来源数据集(publaynet/doclaynet/slidevqa)sourceKey:样本来源键值assetOriginalHeight:资源原始高度assetOriginalWidth:资源原始宽度assetType:资源类型(image/text)fontSize:文本资源的检测字体大小(仅文本类型)split:使用情况(train/val_test/not_used)
合成布局草图
覆盖数据集
- PubLayNet
- DocLayNet
- SlideVQA
数据格式
- TFRecord格式
- 每条记录为序列化的
tf.train.Example
特征字段
example_id:原始数据集中的布局键值(字节格式)sketch/encoded:表示布局的序列化草图图像字节
数据集规模
PubLayNet
- 训练集:161,469个样本
- 验证集:6,471个样本
- 测试集:6,572个样本
DocLayNet
- 训练集:28,780个样本
- 验证集:2,228个样本
- 测试集:2,317个样本
SlideVQA
- 训练集:16,593个样本
- 验证集:4,625个样本
- 测试集:6,359个样本
下载资源
资源基元
- 大小:6.1MB
- 下载地址:https://storage.mtls.cloud.google.com/sketch_to_layout_dataset/asset_primitives.tgz
生成草图示例
- 大小:<1MB
- 下载地址:https://storage.mtls.cloud.google.com/sketch_to_layout_dataset/generated_sketches_excerpt.tgz
完整数据集
- PubLayNet生成草图:24.6GB
- DocLayNet生成草图:2.2GB
- SlideVQA生成草图:1.1GB
使用工具
提供Colab Notebook用于数据下载和可视化,包含数据读取和可视化步骤。
许可证信息
- 软件部分:Apache License 2.0
- 其他材料:Creative Commons Attribution 4.0 International License
搜集汇总
数据集介绍

构建方式
在图形布局生成研究领域,构建大规模手绘草图数据集面临高昂成本挑战。本数据集通过创新合成方法,首先收集人类标注的文本与图像元素草图基元,随后基于布局属性匹配机制,从候选基元库中随机采样并组合生成完整草图。该流程仅需少量人工标注时间,即可扩展生成超过20万条与PubLayNet、DocLayNet和SlidesVQA布局配对的合成草图,有效解决了传统数据采集的瓶颈问题。
特点
该数据集具备多维度显著特性:其草图数据严格遵循专业设计领域的线框图表征规范,文本元素以水平线段表示,图像元素采用带对角线的矩形标识。合成草图与真实布局保持几何结构一致性,同时通过随机化基元组合引入自然变异。覆盖三大公开文档数据集的结构多样性,确保了模型训练的泛化能力。实验验证表明,合成草图与人工绘制草图在布局生成任务中具有可比的性能表现。
使用方法
该数据集专为草图引导的布局生成任务设计,研究者可将合成草图作为视觉输入,结合文本与图像资源,训练多模态视觉语言模型。使用流程包含将草图与资源嵌入模型输入层,通过协议缓冲区格式输出结构化布局表示。该方法支持端到端训练范式,既能用于模型微调阶段的数据增强,也可作为基准测试集评估生成布局与草图约束的几何一致性及内容感知能力。
背景与挑战
背景概述
随着图形布局生成研究的深入发展,用户约束引导的布局设计逐渐成为焦点。2025年,由Google DeepMind与EPFL联合团队提出的O(200k)合成草图数据集,旨在通过手绘草图这一直观约束形式,解决传统布局生成方法依赖复杂参数设定的局限性。该数据集基于PubLayNet、DocLayNet和SlidesVQA三大公开文档布局数据集构建,通过多模态Transformer模型将草图与图文内容结合,显著提升了布局生成的语义连贯性与视觉美感,为交互式设计工具的发展奠定了数据基础。
当前挑战
该数据集核心挑战在于解决草图到布局的跨模态映射问题,需精确解析手绘线条的空间语义以生成符合设计逻辑的布局结构。构建过程中,真实草图数据采集成本高昂,研究团队通过合成生成技术将人工标注的原子笔触组合为完整草图,但需克服合成数据与真实手绘风格的分布差异。此外,模型需同时处理草图几何特征与图文内容语义,避免因过度依赖草图结构而忽略内容叙事顺序,这对多模态对齐能力提出了更高要求。
常用场景
经典使用场景
在图形布局生成研究领域,该数据集最经典的使用场景是作为训练视觉语言模型的合成草图数据源。研究人员利用这些草图指导模型学习如何将用户绘制的简单轮廓转换为结构化的文档布局,涵盖科学文档、幻灯片和广告设计等多种布局类型。通过将草图与对应的文本图像资源配对,模型能够理解如何根据草图暗示的空间关系安排元素位置,实现从抽象概念到具体布局的端到端生成。
衍生相关工作
基于该数据集衍生的经典工作主要包括三大方向:一是布局生成模型的架构创新,如结合Transformer和视觉编码器的多模态网络设计;二是约束条件的表示学习,探索如何将草图信息有效编码为模型可理解的指导信号;三是评估体系的完善,催生了内容排序分数等新型评价指标。这些工作共同推动了草图引导布局生成从概念验证走向实用化阶段,为后续研究奠定了方法论基础。
数据集最近研究
最新研究方向
在图形布局生成领域,近期研究聚焦于探索草图引导的多模态布局生成技术。该数据集通过大规模合成草图解决了训练数据稀缺的瓶颈,推动了视觉语言模型在草图解析与内容感知布局生成中的深度融合。热点方向包括利用合成数据增强模型对用户意图的捕捉能力,以及开发兼顾几何结构与语义连贯性的评估指标。这一进展显著提升了自动化设计工具的直观性与效率,为跨文档、幻灯片等场景的智能布局生成奠定了技术基础。
相关研究论文
- 1通过Google DeepMind · 2025年
以上内容由遇见数据集搜集并总结生成



