wendlerc/RenderedText

Name: wendlerc/RenderedText
Creator: wendlerc
Published: 2023-07-12 09:28:10
License: 暂无描述

Hugging Face2023-07-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wendlerc/RenderedText

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Stability AI和LAION创建，包含1200万张1024x1024分辨率的图像，这些图像是通过Blender几何节点生成的数字3D纸张上的手写文本。文本具有不同的字体大小、颜色和旋转角度，纸张在随机光照条件下渲染。数据集还包含行级和字符级的注释，注释以JSON文件形式存储。

This dataset was created by Stability AI and LAION, containing 12 million images with a resolution of 1024×1024. Each image depicts handwritten text on digital 3D paper generated via Blender Geometry Nodes. The text features varying font sizes, colors and rotation angles, while the paper is rendered under random lighting conditions. The dataset also includes line-level and character-level annotations stored in JSON files.

提供机构：

wendlerc

原始信息汇总

数据集概述

基本信息

任务类别：text-to-image, image-to-text
语言：en
标签：OCR, blender, LAION, Stability
大小类别：10M<n<100M

数据集内容

图像数量：12 million
图像规格：1024x1024
图像内容：手写体文本，字体大小、颜色和旋转角度各异，纸张在随机光照条件下渲染。
文件分布：前1000万图像位于根目录，剩余200万图像位于./remaining目录。

生成工具与资源

生成脚本：https://github.com/GbotHQ/ocr-dataset-rendering/
字体资源：约8000种字体，来自https://www.urbanfonts.com/free-fonts.htm和https://www.fontspace.com/
HDRIs：643种CC0 HDRIs，来自https://polyhaven.com/
PRB材料：1837种CC0 PRB材料，来自https://ambientcg.com/
文本样本：随机句子，来自https://huggingface.co/datasets/ChristophSchuhmann/wikipedia-en-nov22-1-sentence-level和https://huggingface.co/datasets/ChristophSchuhmann/1-sentence-level-gutenberg-en_arxiv_pubmed_soda

注释信息

注释类型：行级和字符级注释
注释格式：JSON文件，包含边界框、文本内容、相对边界框、字符列表、字符索引、字符级边界框、字体路径、字体颜色和文本旋转角度等信息。

示例链接

示例浏览

搜集汇总

数据集介绍

构建方式

wendlerc/RenderedText数据集由Stability AI和LAION共同创建，该数据集的构建采用了数字三维纸张上的手写文本图像生成方式。具体而言，通过Blender几何节点生成数字3D纸张，并利用Blender Cycles进行渲染，生成12百万张1024x1024像素的图像。图像中的文本具有不同的字体大小、颜色和旋转角度，且纸张在各种随机光照条件下进行渲染，以模拟真实的手写文本场景。

特点

该数据集的特点在于其高质量的图像生成和详尽的标注信息。图像生成利用了8000种字体、643个CC0 HDRIs以及1837个CC0 PRB材质，确保了文本图像的多样性和真实性。此外，数据集为每个图像提供了行级别和字符级别的标注，这些标注信息以json文件形式存储，包含了文本的边界框、文本内容、字体路径、字体颜色和文本旋转角度等详细信息。

使用方法

使用该数据集时，用户可以直接从数据集的根目录获取前1000万张图像，而剩余的200万张图像则存储在./remaining文件夹中。用户可以依据json文件中的标注信息，进行光学字符识别（OCR）相关的训练和评估。同时，数据集提供的详细标注信息也适用于文本识别模型的 fine-tuning，以及图像处理和计算机视觉领域的研究与应用。

背景与挑战

背景概述

在光学字符识别（OCR）技术飞速发展的当下，wendlerc/RenderedText数据集应运而生，由Stability AI与LAION两大机构携手打造。该数据集包含了1200万张1024x1024像素的手写文本图像，这些图像是通过Blender几何节点生成并使用Blender Cycles渲染的，模拟了数字3D纸张上的手写文本效果。其文本的字体大小、颜色和旋转角度各不相同，且纸张在不同的光照条件下渲染，以增强真实感。这一数据集的创建，不仅丰富了OCR领域的研究资源，也为相关算法的训练与评估提供了重要支撑。

当前挑战

wendlerc/RenderedText数据集在构建过程中，面临着多方面的挑战。首先，数据集需在保证图像质量的同时，涵盖多样化的字体、颜色及布局，以适应不同的OCR算法需求。其次，构建过程中涉及到的字体、HDRIs以及PRB材料等资源的整合与优化，也是一项技术挑战。此外，数据集的规模控制与文件管理，以及确保字符级别和行级别注释的准确性，都是数据集构建中必须克服的关键问题。

常用场景

经典使用场景

在文本识别与图像生成研究领域，wendlerc/RenderedText数据集以其独特的12百万手写文本图像，成为了一项重要的资源。该数据集通过Blender Cycles渲染技术，模拟了在数字3D纸张上的手写文本，支持字体大小、颜色及旋转的多样性，以及随机光照条件的纸张渲染，为研究者提供了丰富的视觉变异样本，是训练OCR模型的经典使用场景。

衍生相关工作

基于wendlerc/RenderedText数据集，学术界衍生了多项研究工作，包括但不限于改进OCR识别算法、图像生成模型的研究，以及在多模态学习中的应用探索。这些相关工作推动了文本识别技术的进步，并扩展了该数据集在人工智能领域的应用范围。

数据集最近研究