Infographics-650K

Name: Infographics-650K
Creator: 清华大学, 布朗大学, 利物浦大学, 微软亚洲研究院, 微软
Published: 2025-03-27 00:04:57
License: 暂无描述

arXiv2025-03-27 更新2025-03-28 收录

下载链接：

https://bizgen-msra.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

Infographics-650K是一个包含超过65万张高质量、高分辨率 infographic 样本的数据集，由清华大学、布朗大学等机构创建。该数据集涵盖了10种不同的语言，并具备详细的全球标题和图像以及超密集布局和区域特定标题。数据集通过分层检索增强的 infographic 生成方案构建，解决了商业内容生成中的数据稀缺问题。

Infographics-650K is a dataset consisting of over 650,000 high-quality, high-resolution infographic samples, developed by institutions including Tsinghua University, Brown University, and others. This dataset covers 10 distinct languages, and features detailed global titles and images, as well as ultra-dense layouts and region-specific captions. Constructed via a hierarchical retrieval-augmented infographic generation framework, the dataset addresses the data scarcity issue in commercial content generation.

提供机构：

清华大学, 布朗大学, 利物浦大学, 微软亚洲研究院, 微软

创建时间：

2025-03-27

原始信息汇总

BizGen 数据集概述

基本信息

标题: BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
作者:
- Yuyang Peng
- Shishi Xiao
- Keming Wu
- Qisheng Liao
- Bohan CHEN
- Kevin Lin
- Danqing Huang
- Ji Li
- Yuhui Yuan
机构:
- Tsinghua University
- Brown University
- University of Liverpool
- Microsoft Research Asia
- Microsoft

数据集描述

主要用途: 用于生成信息图表（Infographics）的文章级视觉文本渲染
技术特点: 基于Glyph-ByT5-v3模型

搜集汇总

数据集介绍

构建方式

Infographics-650K数据集的构建采用了分层检索增强的信息图生成方案，通过创新的数据引擎实现了高质量商业内容的大规模合成。研究团队首先收集了5000余张原始信息图及其分层布局数据，随后构建了包含100万+透明图层的数据库，并利用GPT-4o进行主导层识别和CLIP相似度检索，通过层替换策略生成65万张多语言、多风格的高分辨率信息图。该过程特别注重保持2240×896的高清分辨率，并通过LLaVA-1.6-34B模型生成细粒度的分层描述文本，有效解决了商业内容数据稀缺的核心挑战。

特点

该数据集最显著的特点是具备超密集布局特性，平均每张信息图包含约30个分层元素，支持十种语言的视觉文本渲染。不同于传统图文数据集，Infographics-650K不仅提供全局描述，还包含精确的区域级提示和边界框标注，支持对标题、副标题、正文等文章级长文本（500+字符）的精准控制。数据集样本在字符级OCR准确率方面表现优异，在737字符的长文本测试中达到97%的识别率，为视觉文本生成研究提供了前所未有的细粒度控制能力。

使用方法

使用该数据集时，建议采用论文提出的布局引导交叉注意力机制，将超长上下文建模任务分解为多个区域级生成任务。具体操作需先将输入潜特征根据布局先验裁剪为区域视觉标记，再与CLIP/Glyph-ByT5编码的文本标记进行分组注意力计算。推理阶段可采用布局条件CFG策略，通过动态调整不同分层的引导权重来消除伪影。该数据集特别适用于训练支持超密集布局的商业内容生成模型，如信息图、幻灯片等多元素复合媒体的生成任务。

背景与挑战

背景概述

Infographics-650K是由清华大学、布朗大学、利物浦大学及微软亚洲研究院等机构的研究团队于2025年推出的高质量商业内容生成数据集，专注于解决信息图表与幻灯片等复杂商业设计内容的生成问题。该数据集包含65万样本，覆盖10种语言，每个样本均配备超密集布局和区域级描述文本，旨在突破现有文本生成图像模型在长上下文处理与商业数据稀缺性方面的局限。其创新性的分层检索增强生成方案，显著提升了模型对超密集布局的遵循能力，为商业内容生成领域建立了新的技术基准。

当前挑战

Infographics-650K面临的核心挑战体现在两个维度：在领域问题层面，需解决传统文本生成图像模型在文章级视觉文本渲染中的拼写准确率骤降问题（如SD3模型在737字符场景下OCR准确率仅46%），同时应对信息图表特有的高密度元素空间排布与语义关联难题；在构建过程中，需克服商业设计数据获取成本高、标注复杂度指数级增长（单图平均30个图层）以及多语言视觉文本对齐等技术瓶颈。此外，2240×896超高分辨率要求与区域级细粒度控制的需求，进一步增加了数据引擎构建与模型训练的复杂度。

常用场景

经典使用场景

Infographics-650K数据集在信息图表生成领域具有广泛的应用场景，特别是在需要处理长文本和复杂布局的商业内容生成任务中。该数据集通过提供超密集布局和区域特定的提示，使得生成的信息图表能够精确地遵循设计要求，适用于商业报告、幻灯片设计、市场营销材料等多种场景。其高质量的数据和多样化的风格使其成为研究和开发信息图表生成模型的理想选择。

衍生相关工作

Infographics-650K数据集衍生了一系列相关研究和工作，特别是在布局引导的图像生成和多语言文本渲染领域。基于该数据集，研究人员开发了BizGen框架，该框架在信息图表生成任务中显著优于现有方法。此外，该数据集还被用于训练多层透明信息图表生成模型，进一步扩展了其在图形设计生成领域的应用范围。这些工作共同推动了商业内容生成技术的进步。

数据集最近研究

Infographics-650K

BizGen 数据集概述

基本信息

相关资源

数据集描述