CGL-Dataset v2

github2024-02-12 更新2024-05-31 收录

下载链接：

https://github.com/creative-graphic-design/huggingface-datasets_CGL-Dataset-v2

下载链接

链接失效反馈

官方服务：

资源简介：

CGL-Dataset V2是一个用于自动广告海报图形布局设计任务的数据集，包含60,548个训练样本和1035个测试样本。它是CGL-Dataset的扩展。

The CGL-Dataset V2 is a dataset designed for the task of automatic advertising poster graphic layout, comprising 60,548 training samples and 1,035 test samples. It serves as an extension of the original CGL-Dataset.

创建时间：

2024-01-06

原始信息汇总

数据集概述

名称: CGL-Dataset v2
语言: 中文（zh）
创建者: 众包
许可证: 未知
多语言性: 单语
用途: 自动图形布局设计，特别是广告海报设计
数据集大小: 包含60,548个训练样本和1035个测试样本

数据集结构

数据实例: 数据集包括海报图像、文本及其特征，需通过JD Cloud或Google Drive下载RADM_dataset.tar.gz文件。
数据字段: 信息不足，待补充。
数据分割: 信息不足，待补充。

数据集创建

来源数据: 信息不足，待补充。
注释过程: 信息不足，待补充。
注释者: 信息不足，待补充。

使用数据注意事项

社会影响: 信息不足，待补充。
偏见讨论: 信息不足，待补充。
其他已知限制: 信息不足，待补充。

附加信息

数据集维护者: 信息不足，待补充。
许可证信息: 信息不足，待补充。
引用信息: bibtex @inproceedings{li2023relation, title={Relation-Aware Diffusion Model for Controllable Poster Layout Generation}, author={Li, Fengheng and Liu, An and Feng, Wei and Zhu, Honghe and Li, Yaoyu and Zhang, Zheng and Lv, Jingjing and Zhu, Xin and Shen, Junjie and Lin, Zhangang}, booktitle={Proceedings of the 32nd ACM international conference on information & knowledge management}, pages={1249--1258}, year={2023} }
贡献者: 感谢@liuan0803创建此数据集。

搜集汇总

数据集介绍

构建方式

CGL-Dataset v2的构建旨在解决先前数据集在自动海报布局生成任务中的局限性。该数据集通过整合文本内容注释和创建干净的背景图像，生成了高质量、视觉平衡且信息丰富的海报布局。数据集的构建过程包括从广告海报中提取图像和文本内容，并对图像中的图形元素进行详细标注，如类别和坐标信息。这些标注有助于理解海报中不同元素之间的空间关系，从而支持更高级的自动布局生成模型的研究与开发。

特点

CGL-Dataset v2包含60,548个训练样本和1,035个测试样本，专注于广告海报的自动布局设计任务。数据集中的海报图像涵盖了丰富的图形元素，如标志、文本、底纹和装饰，且文本内容主要涉及电子商务领域的促销标语和描述。每个图像都附有详细的元素标注，包括类别和坐标信息，为研究文本对海报布局设计的影响提供了重要支持。此外，数据集的语言为中文，进一步扩展了其在中文市场中的应用潜力。

使用方法

使用CGL-Dataset v2时，用户可以通过Hugging Face的`datasets`库直接加载数据集。加载方式为`dataset = ds.load_dataset('creative-graphic-design/CGL-Dataset-v2')`。数据集中的图像和文本内容可用于训练和评估自动海报布局生成模型。用户可以根据需要选择是否解码Run-length Encoding（RLE）并加载RoBERTa-based的文本特征。通过这种方式，研究人员和开发者能够快速访问数据集，并利用其丰富的标注信息进行模型训练和性能评估。

背景与挑战

背景概述

CGL-Dataset v2 是一个专注于广告海报自动布局设计任务的数据集，由研究人员在2023年发布，旨在推动自动图形设计领域的研究与发展。该数据集是CGL-Dataset的扩展版本，包含60,548个训练样本和1,035个测试样本，涵盖了丰富的海报图像及其相关文本内容。通过引入文本内容注释和干净的背景图像，CGL-Dataset v2 为生成高质量、视觉平衡且信息丰富的海报布局提供了重要支持。该数据集的发布为自动图形设计领域的研究者提供了宝贵的资源，推动了相关技术的进步。

当前挑战

CGL-Dataset v2 在解决广告海报自动布局设计问题时面临多重挑战。首先，如何确保生成的布局在视觉上平衡且符合设计美学，是一个复杂的问题，需要模型具备对空间关系和设计原则的深刻理解。其次，数据集的构建过程中，如何准确标注海报中的图形元素（如文本、标志、装饰等）及其空间位置，是一项耗时且易出错的任务。此外，由于数据集主要针对中文广告海报，如何有效处理中文文本与图形元素之间的语义关联，也是模型设计中的一大难点。这些挑战不仅考验了数据集的构建质量，也对后续模型的性能提出了更高的要求。

常用场景

经典使用场景

CGL-Dataset v2数据集在广告海报自动布局设计领域具有广泛的应用。该数据集通过提供大量带有详细标注的海报图像，支持研究人员开发先进的自动布局生成模型。这些模型能够根据文本内容和视觉元素生成高质量、视觉平衡的海报布局，极大地提升了设计效率。

实际应用

在实际应用中，CGL-Dataset v2被广泛用于广告设计、电商推广等领域。基于该数据集训练的自动布局生成模型能够快速生成符合商业需求的海报设计，显著降低了设计成本和时间。此外，这些模型还能够根据不同的文本内容自动调整布局，提升了设计的灵活性和适应性。

衍生相关工作

CGL-Dataset v2的发布催生了多项经典研究工作。例如，基于该数据集开发的Relation-Aware Diffusion Model在可控海报布局生成任务中取得了显著成果。该模型通过引入关系感知机制，能够生成更加符合设计需求的海报布局，为自动布局生成领域提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集