O(200k) synthetically-generated sketches

Name: O(200k) synthetically-generated sketches
Creator: Google DeepMind
Published: 2025-11-01 01:05:10
License: 暂无描述

arXiv2025-11-01 更新2025-11-04 收录

下载链接：

https://github.com/google-deepmind/sketch_to_layout

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了名为“O(200k) synthetically-generated sketches”的数据集，该数据集由Google DeepMind的研究团队创建，包含约20万个由算法生成的草图，旨在用于训练视觉语言模型（VLMs），以解决草图到布局生成的问题。这些草图是根据现有文档和布局数据集的结构合成的，旨在模拟人类设计师的草图风格。数据集的发布将有助于推进草图指导的布局生成研究，并促进更直观的设计体验的发展。

This paper introduces a dataset named "O(200k) synthetically-generated sketches", which was created by the research team at Google DeepMind. The dataset contains approximately 200,000 algorithmically generated sketches, and is intended for training Vision-Language Models (VLMs) to solve the sketch-to-layout generation task. These sketches are synthesized based on the structures of existing document and layout datasets, designed to mimic the sketching styles of human designers. The release of this dataset will help advance research on sketch-guided layout generation and facilitate the development of more intuitive design experiences.

提供机构：

Google DeepMind

创建时间：

2025-11-01

原始信息汇总

Sketch-to-Layout 数据集概述

数据集简介

该数据集用于论文《Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation》，包含两种主要数据类型：手绘资源基元和布局合成草图。

数据组成

手绘资源基元

数据格式：InkML格式
来源：从PubLayNet、DocLayNet和SlideVQA数据集中采样文本和图像基元
标注过程：10名人类标注者在资源基元上绘制基于墨水的手绘基元
数量统计：
- 图像基元：408个
- 文本基元：612个

元数据信息

每个资源基元通过InkML注释元素包含以下元数据：

sourceDataset：来源数据集（publaynet/doclaynet/slidevqa）
sourceKey：样本来源键值
assetOriginalHeight：资源原始高度
assetOriginalWidth：资源原始宽度
assetType：资源类型（image/text）
fontSize：文本资源的检测字体大小（仅文本类型）
split：使用情况（train/val_test/not_used）

合成布局草图

覆盖数据集

PubLayNet
DocLayNet
SlideVQA

数据格式

TFRecord格式
每条记录为序列化的tf.train.Example

特征字段

example_id：原始数据集中的布局键值（字节格式）
sketch/encoded：表示布局的序列化草图图像字节

数据集规模

PubLayNet

训练集：161,469个样本
验证集：6,471个样本
测试集：6,572个样本

DocLayNet

训练集：28,780个样本
验证集：2,228个样本
测试集：2,317个样本

SlideVQA

训练集：16,593个样本
验证集：4,625个样本
测试集：6,359个样本

下载资源

资源基元

大小：6.1MB
下载地址：https://storage.mtls.cloud.google.com/sketch_to_layout_dataset/asset_primitives.tgz

生成草图示例

大小：<1MB
下载地址：https://storage.mtls.cloud.google.com/sketch_to_layout_dataset/generated_sketches_excerpt.tgz

完整数据集

PubLayNet生成草图：24.6GB
DocLayNet生成草图：2.2GB
SlideVQA生成草图：1.1GB

使用工具

提供Colab Notebook用于数据下载和可视化，包含数据读取和可视化步骤。

许可证信息

软件部分：Apache License 2.0
其他材料：Creative Commons Attribution 4.0 International License

搜集汇总

数据集介绍

构建方式

在图形布局生成研究领域，构建大规模手绘草图数据集面临高昂成本挑战。本数据集通过创新合成方法，首先收集人类标注的文本与图像元素草图基元，随后基于布局属性匹配机制，从候选基元库中随机采样并组合生成完整草图。该流程仅需少量人工标注时间，即可扩展生成超过20万条与PubLayNet、DocLayNet和SlidesVQA布局配对的合成草图，有效解决了传统数据采集的瓶颈问题。

特点

该数据集具备多维度显著特性：其草图数据严格遵循专业设计领域的线框图表征规范，文本元素以水平线段表示，图像元素采用带对角线的矩形标识。合成草图与真实布局保持几何结构一致性，同时通过随机化基元组合引入自然变异。覆盖三大公开文档数据集的结构多样性，确保了模型训练的泛化能力。实验验证表明，合成草图与人工绘制草图在布局生成任务中具有可比的性能表现。

使用方法

该数据集专为草图引导的布局生成任务设计，研究者可将合成草图作为视觉输入，结合文本与图像资源，训练多模态视觉语言模型。使用流程包含将草图与资源嵌入模型输入层，通过协议缓冲区格式输出结构化布局表示。该方法支持端到端训练范式，既能用于模型微调阶段的数据增强，也可作为基准测试集评估生成布局与草图约束的几何一致性及内容感知能力。

背景与挑战

背景概述

随着图形布局生成研究的深入发展，用户约束引导的布局设计逐渐成为焦点。2025年，由Google DeepMind与EPFL联合团队提出的O(200k)合成草图数据集，旨在通过手绘草图这一直观约束形式，解决传统布局生成方法依赖复杂参数设定的局限性。该数据集基于PubLayNet、DocLayNet和SlidesVQA三大公开文档布局数据集构建，通过多模态Transformer模型将草图与图文内容结合，显著提升了布局生成的语义连贯性与视觉美感，为交互式设计工具的发展奠定了数据基础。

当前挑战

该数据集核心挑战在于解决草图到布局的跨模态映射问题，需精确解析手绘线条的空间语义以生成符合设计逻辑的布局结构。构建过程中，真实草图数据采集成本高昂，研究团队通过合成生成技术将人工标注的原子笔触组合为完整草图，但需克服合成数据与真实手绘风格的分布差异。此外，模型需同时处理草图几何特征与图文内容语义，避免因过度依赖草图结构而忽略内容叙事顺序，这对多模态对齐能力提出了更高要求。

常用场景

经典使用场景

在图形布局生成研究领域，该数据集最经典的使用场景是作为训练视觉语言模型的合成草图数据源。研究人员利用这些草图指导模型学习如何将用户绘制的简单轮廓转换为结构化的文档布局，涵盖科学文档、幻灯片和广告设计等多种布局类型。通过将草图与对应的文本图像资源配对，模型能够理解如何根据草图暗示的空间关系安排元素位置，实现从抽象概念到具体布局的端到端生成。

衍生相关工作

基于该数据集衍生的经典工作主要包括三大方向：一是布局生成模型的架构创新，如结合Transformer和视觉编码器的多模态网络设计；二是约束条件的表示学习，探索如何将草图信息有效编码为模型可理解的指导信号；三是评估体系的完善，催生了内容排序分数等新型评价指标。这些工作共同推动了草图引导布局生成从概念验证走向实用化阶段，为后续研究奠定了方法论基础。

数据集最近研究