TextAtlas5M
收藏TextAtlas5M 数据集概述
数据集简介
TextAtlas5M是一个用于密集文本图像生成的大型数据集。该数据集旨在挑战和评估文本丰富图像的生成。
数据集访问
- 数据集名称:TextAtlas5M
- 样例数量:约5M
- 数据集类型:合成图像和真实图像
- 访问链接:
数据格式
数据集包含以下格式:
- 主版本:包含图像路径和预集成的提示,适用于直接训练或评估。
- 元数据:包括主版本的所有数据,以及额外的中间结果,如边界框(bbox)、字体大小等,可用于进一步的数据分析或处理。
示例JSON结构
json { "image_path": "path to the Image", "annotation": "A formal presentation hall with an audience attentively listening to a speaker at a podium, with a large screen displaying the text: Furthermore, the research highlighted the critical role of climate-resilient infrastructure, such as irrigation systems and storage facilities, in supporting agricultural production and food security in the face of climate-related." }
数据集拆分概览
| 数据拆分 | 数据集名称 | 样本数量 | 注释 | 类型 | Token长度 | 包含结构化信息 |
|---|---|---|---|---|---|---|
| 合成图像 | CleanTextSynth | 1,907,721 | 实际文本 | 纯文本 | 70.70 | ❌ |
| 合成图像 | TextVisionBlend | 547,837 | 解析的json+BLIP描述 | 纯文本 | 265.62 | ✅ |
| 合成图像 | StyledTextSynth | 426,755 | 人类+QWEN+Intern-VL | 合成图像 | 90.00 | ✅ |
| 真实图像 | PPT2Details | 298,565 | QWEN2-VL描述 | 幻灯片图像 | 121.97 | ❌ |
| 真实图像 | PPT2Structured | 96,457 | 解析的json+QWEN2-VL描述 | 幻灯片图像 | 774.67 | ✅ |
| 真实图像 | LongWordsSubset-A | 266,534 | 描述+OCR | 真实图像 | 38.57 | ❌ |
| 真实图像 | LongWordsSubset-M | 1,299,992 | 描述+OCR | 真实图像 | 34.07 | ❌ |
| 真实图像 | Cover Book | 207,566 | 名称+作者+类别 | 真实图像 | 28.01 | ❌ |
| 真实图像 | Paper2Text | 356,658 | PyMuPdf语句文本 | 纯文本 | 28.01 | ❌ |
| 真实图像 | TextScenesHQ | 36,576 | 人类+Llama+Qwen+GPT4o | 真实图像 | 120.81 | ✅ |
引用
@inproceedings{wang2025large, title={A Large-scale Dataset for Dense Text Image Generation}, author={Alex Jinpeng Wang and Dongxing Mao and Jiawei Zhang and Weiming Han and Zhuobai Dong and Linjie Li and Yiqi Lin and Zhengyuan Yang and Libo Qin and Fuwei Zhang and Lijuan Wang and Min Li}, booktitle={arXiv preprint arXiv: 2502.07870}, year={2025}, }




