TextAtlas5M

github2025-02-22 更新2025-02-14 收录

下载链接：

https://github.com/CSU-JPG/TextAtlas

下载链接

链接失效反馈

官方服务：

资源简介：

TextAtlas5M是一个用于密集文本图像生成的大规模数据集，旨在挑战和评估文本丰富图像生成模型的能力。

TextAtlas5M is a large-scale dataset for dense text-image generation, which aims to challenge and evaluate the capabilities of text-rich image generation models.

创建时间：

2025-02-12

原始信息汇总

TextAtlas5M 数据集概述

数据集简介

TextAtlas5M是一个用于密集文本图像生成的大型数据集。该数据集旨在挑战和评估文本丰富图像的生成。

数据集访问

数据集名称：TextAtlas5M
样例数量：约5M
数据集类型：合成图像和真实图像
访问链接：
- TextAtlas5M Dataset
- TextAtlasEval Dataset

数据格式

数据集包含以下格式：

主版本：包含图像路径和预集成的提示，适用于直接训练或评估。
元数据：包括主版本的所有数据，以及额外的中间结果，如边界框（bbox）、字体大小等，可用于进一步的数据分析或处理。

示例JSON结构

json { "image_path": "path to the Image", "annotation": "A formal presentation hall with an audience attentively listening to a speaker at a podium, with a large screen displaying the text: Furthermore, the research highlighted the critical role of climate-resilient infrastructure, such as irrigation systems and storage facilities, in supporting agricultural production and food security in the face of climate-related." }

数据集拆分概览

数据拆分	数据集名称	样本数量	注释	类型	Token长度	包含结构化信息
合成图像	CleanTextSynth	1,907,721	实际文本	纯文本	70.70	❌
合成图像	TextVisionBlend	547,837	解析的json+BLIP描述	纯文本	265.62	✅
合成图像	StyledTextSynth	426,755	人类+QWEN+Intern-VL	合成图像	90.00	✅
真实图像	PPT2Details	298,565	QWEN2-VL描述	幻灯片图像	121.97	❌
真实图像	PPT2Structured	96,457	解析的json+QWEN2-VL描述	幻灯片图像	774.67	✅
真实图像	LongWordsSubset-A	266,534	描述+OCR	真实图像	38.57	❌
真实图像	LongWordsSubset-M	1,299,992	描述+OCR	真实图像	34.07	❌
真实图像	Cover Book	207,566	名称+作者+类别	真实图像	28.01	❌
真实图像	Paper2Text	356,658	PyMuPdf语句文本	纯文本	28.01	❌
真实图像	TextScenesHQ	36,576	人类+Llama+Qwen+GPT4o	真实图像	120.81	✅

引用

@inproceedings{wang2025large, title={A Large-scale Dataset for Dense Text Image Generation}, author={Alex Jinpeng Wang and Dongxing Mao and Jiawei Zhang and Weiming Han and Zhuobai Dong and Linjie Li and Yiqi Lin and Zhengyuan Yang and Libo Qin and Fuwei Zhang and Lijuan Wang and Min Li}, booktitle={arXiv preprint arXiv: 2502.07870}, year={2025}, }

搜集汇总

数据集介绍

构建方式

TextAtlas5M数据集的构建采取了对多种类型文本图像的整合，包括合成图像和真实图像，旨在为密集文本图像生成提供大规模的挑战和评估资源。数据集涵盖了从纯文本到包含结构化信息的丰富文本图像，通过对不同来源和类型的图像进行处理和标注，形成了具备多样化文本内容的综合数据集。

特点

TextAtlas5M数据集的主要特点在于其规模宏大，包含近五百万个样本，覆盖了合成图像和真实图像两大类别，同时具备丰富的文本信息。数据集不仅提供了基本的图像路径和文本描述，还包含元数据版本，提供了诸如边界框、字体大小等详细信息，为深入的数据分析和处理提供了可能。

使用方法

使用TextAtlas5M数据集时，用户可以通过Hugging Face平台直接访问数据集。数据集提供了主版本和元数据版本，主版本适合直接用于训练或评估，而元数据版本则提供了额外的中间结果，可用于进一步的数据分析。用户需遵循数据集的使用规范，并参考在线文档和评估指南以充分利用数据集资源。

背景与挑战

背景概述

TextAtlas5M数据集是一款专为密集文本图像生成而设计的大规模数据集。该数据集由Alex Jinpeng Wang等研究人员于2025年创建，旨在挑战和评估文本丰富图像的生成能力。它涵盖了约500万张图像，其中包括合成的纯文本图像以及现实世界中的图像，如PPT、书籍封面和论文文本等。该数据集的构建旨在推动文本图像生成领域的研究，并在学术界产生了广泛的影响力。

当前挑战

TextAtlas5M数据集在构建过程中面临了多个挑战。首先，在保证图像质量的同时，需要生成具有丰富文本内容的图像，这要求算法能够准确处理和渲染文本。其次，数据集的多样化构建，包括不同类型的图像和文本样式，要求高效率的数据处理和标注方法。此外，对于评价标准和方法的选择，也是保证数据集有效性和可靠性的关键挑战之一。

常用场景

经典使用场景

TextAtlas5M数据集作为文本密集型图像生成的大规模数据集，其经典使用场景主要在于图像生成模型的训练与评估。研究者通过该数据集，可以训练模型以理解和生成包含丰富文本信息的图像，进而提升模型在理解文本与图像相互关系方面的能力。

解决学术问题

该数据集解决了学术研究中文本与图像结合的难题，为研究者提供了一个丰富的实验平台，用于探索和解决如何更精确地生成和识别图像中的文本信息。它的发布对于推动文本图像生成领域的研究具有重要意义，为相关算法提供了性能评价的标准。

衍生相关工作

基于TextAtlas5M数据集，已经衍生出一系列相关工作，包括对数据集的深入分析、生成模型的改进、以及文本图像识别算法的研究。这些工作不仅扩展了数据集的应用范围，也推动了文本图像处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集