TextDiffuser-MARIO-10M

Hugging Face2024-08-31 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/JingyeChen22/TextDiffuser-MARIO-10M

下载链接

链接失效反馈

官方服务：

资源简介：

MARIO-10M是一个包含约1000万张文本图像的数据集，这些图像来自书籍封面、海报和票据等多种来源。数据集不仅提供了图像，还包含了OCR结果和描述信息。

MARIO-10M is a dataset containing approximately 10 million text-containing images, which are derived from diverse sources including book covers, posters, tickets and other similar materials. In addition to the original images, the dataset also provides OCR results and descriptive information.

创建时间：

2024-08-28

原始信息汇总

TextDiffuser-MARIO-10M 数据集概述

数据集描述

MARIO-10M 是一个包含约1000万张文本图像的数据集，这些图像来自多种来源，如书籍封面、海报和票据。数据集不仅包含图像，还提供了OCR结果和描述信息。

下载步骤

数据集的下载过程包括三个步骤：

下载所有tar文件 bash for i in {0..500}; do wget -O $i.tar.gz https://huggingface.co/datasets/JingyeChen22/TextDiffuser-MARIO-10M/resolve/main/$i.tar.gz?download=true; done
解压顶级目录 bash for i in {0..500}; do tar -xvf $i.tar.gz --strip-components=5 && rm $i.tar.gz; done
解压次级目录 bash for i in {0..500}; do cd $i && for file in *.tar.gz; do tar -xvf "$file" --strip-components=5 && rm $file; done; cd ..; done

最终的目录结构如下： bash MARIO-10M/ │ ├── 0/ │ ├── 00000/ │ ├──── 000000012/ │ ├──────── caption.txt │ ├──────── charseg.npy │ ├──────── image.jpg │ ├──────── info.json │ ├──────── ocr.txt ...

引用

如果在研究中使用了MARIO数据集，请引用以下论文：

@article{chen2024textdiffuser, title={Textdiffuser: Diffusion models as text painters}, author={Chen, Jingye and Huang, Yupan and Lv, Tengchao and Cui, Lei and Chen, Qifeng and Wei, Furu}, journal={Advances in Neural Information Processing Systems}, volume={36}, year={2024} }

@article{chen2023textdiffuser, title={Textdiffuser-2: Unleashing the power of language models for text rendering}, author={Chen, Jingye and Huang, Yupan and Lv, Tengchao and Cui, Lei and Chen, Qifeng and Wei, Furu}, journal={arXiv preprint arXiv:2311.16465}, year={2023} }

搜集汇总

数据集介绍

构建方式

TextDiffuser-MARIO-10M数据集的构建过程涵盖了广泛的文本图像来源，包括书籍封面、海报和票据等。这些图像经过精心筛选和整理，确保多样性和代表性。每张图像均配备了OCR识别结果和详细的文字描述信息，进一步丰富了数据集的内容。数据集的构建不仅注重图像的质量，还通过自动化工具和人工审核相结合的方式，确保了数据的准确性和一致性。

特点

TextDiffuser-MARIO-10M数据集以其庞大的规模和多样性著称，包含约1000万张文本图像。每张图像均附有OCR识别结果和文字描述信息，为研究者提供了丰富的多模态数据资源。数据集的图像来源广泛，涵盖了书籍封面、海报和票据等多种场景，能够满足不同研究需求。此外，数据集的结构化存储方式使得数据访问和处理更加高效，为文本生成、图像识别等领域的研究提供了坚实的基础。

使用方法

使用TextDiffuser-MARIO-10M数据集时，用户需按照提供的下载步骤依次解压文件。数据集以分层目录结构存储，每张图像及其相关信息均位于独立的子目录中，便于用户快速定位和访问。用户可以通过读取`caption.txt`、`ocr.txt`等文件获取图像的描述和OCR结果，结合`image.jpg`进行多模态分析。此外，数据集还提供了`info.json`文件，包含图像的元数据信息，为研究提供了更多维度的支持。

背景与挑战

背景概述

TextDiffuser-MARIO-10M数据集由Jingye Chen等研究人员于2024年发布，旨在推动文本图像生成与理解领域的研究。该数据集包含约1000万张文本图像，涵盖书籍封面、海报、票据等多种来源，并提供了OCR结果和图像描述信息。其核心研究问题在于如何利用扩散模型（Diffusion Models）进行文本渲染，从而提升文本生成的质量与多样性。该数据集为文本图像生成、OCR技术优化以及多模态学习提供了重要的数据支持，对计算机视觉与自然语言处理领域的交叉研究具有深远影响。

当前挑战

TextDiffuser-MARIO-10M数据集在解决文本图像生成问题时面临多重挑战。首先，文本图像的多样性与复杂性使得生成模型的训练难度显著增加，尤其是在处理不同字体、布局和背景时。其次，OCR结果的准确性直接影响后续任务的表现，而低质量图像或复杂背景可能导致OCR错误。在数据集构建过程中，研究人员还需应对数据标注的规模与一致性挑战，确保每张图像的OCR结果和描述信息准确无误。此外，数据集的存储与分发也面临技术挑战，需通过分块压缩与解压来优化下载与使用效率。

常用场景

经典使用场景

TextDiffuser-MARIO-10M数据集在计算机视觉和自然语言处理的交叉领域中展现了其独特的价值。该数据集包含了约1000万张文本图像，涵盖了书籍封面、海报和票据等多种来源，同时提供了OCR结果和图像描述信息。这使得它成为研究文本图像生成、文本识别和图像描述生成等任务的理想选择。研究人员可以利用该数据集训练和评估模型，探索文本与图像之间的复杂关系。

解决学术问题

TextDiffuser-MARIO-10M数据集为解决文本图像生成和文本识别中的关键问题提供了重要支持。通过提供丰富的文本图像及其OCR结果和描述信息，该数据集帮助研究人员克服了传统方法在文本渲染和识别中的局限性。例如，它能够支持基于扩散模型的文本生成研究，推动文本渲染技术的进步。此外，该数据集还为多模态学习提供了高质量的数据基础，促进了文本与图像联合建模的研究。

衍生相关工作

TextDiffuser-MARIO-10M数据集的发布催生了一系列相关研究。例如，基于该数据集的研究工作《TextDiffuser: Diffusion Models as Text Painters》和《TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering》分别探索了扩散模型和语言模型在文本渲染中的应用。这些研究不仅验证了数据集的实用性，还推动了文本生成和图像渲染领域的技术创新，为后续研究提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集