TextInVision

github2025-03-12 更新2025-03-13 收录

下载链接：

https://github.com/TextinVision/TextinVision

下载链接

链接失效反馈

官方服务：

资源简介：

TextInVision是一个大规模的、基于文本和提示复杂度的基准数据集，旨在评估扩散模型在图像中有效集成视觉文本的能力。该数据集包含多样化的提示和文本，考虑了可以打印在图像上的各种属性和文本特征。此外，还准备了一个图像数据集，用于测试变分自编码器（VAE）模型在不同字符表示中的表现。

TextInVision is a large-scale benchmark dataset based on text and prompt complexity, which aims to evaluate the ability of diffusion models to effectively integrate textual content into images. This dataset includes diverse prompts and textual contents, taking into account various attributes and text features that can be printed on images. In addition, an image dataset has been prepared to test the performance of Variational Autoencoder (VAE) models across different character representations.

创建时间：

2025-03-12

原始信息汇总

✨TextInVision: 文本和提示复杂度驱动的视觉文本生成基准

Overview

TextInVision是一个大规模的、文本和提示复杂度驱动的基准，旨在评估扩散模型有效整合视觉文本进入图像的能力。该数据集包含了考虑各种属性和文本特征的多样化提示和文本集合。

File Structure

以下是该存储库中文件的概览：

Filename	Type	Description
`all_texts.csv`	CSV	包含TextInVision提示集中使用的所有文本。
`all_prompts.csv`	CSV	包含TextInVision提示集中使用的所有提示（指令）。
`real_world_prompts.json`	JSON	包含来自现实世界情境的指令（提示）。
`vae_images_metadata.json`	JSON	包含TextInVision图像集中使用的图像的元数据，包括图像链接和其他详细信息。
`config.json`	JSON	包含两个部分：提示和文本。每个部分都包含各种过滤属性，结合逻辑运算符。

Usage

Clone the repository

bash git clone https://github.com/TextinVision/TextinVision.git
Generate the Prompts JSON

更新config.json文件，添加你想要的过滤器，并运行：

bash python prompt_text_selection.py

生成的JSON中的一个示例条目可能如下所示：

json "A cat holding a sign with the text "Happy 25th Birthday!" on it.": { "text": "Happy 25th Birthday!", ... "prompt_type": "simple", "prompt_word_length": 10, "prompt_char_length": 34 }
Download VAE Image Set

要使用提供的vae_images_metadata.json下载VAE测试图像集，运行：

bash python download_VAE_image_set.py
Score Computation via Algorithm 1

模型获得的分数是通过算法1计算的，该算法集成了三种不同的文本相似度方法（最长有序匹配、最长公共子序列和智能Levenshtein距离），以评估预期文本和OCR输出之间的对齐情况。

你需要两个CSV文件：一个用于预期文本，一个用于OCR输出，每个文件都包含一个名为"content"的列。然后运行脚本，将生成score.csv文件。

bash python score.py

搜集汇总

数据集介绍

构建方式

TextInVision数据集的构建，是基于文本和提示复杂度的考虑，设计了一个大规模的评测基准，旨在评估扩散模型将视觉文本有效融入图像的能力。该数据集通过精心设计多样化的提示和文本，涵盖了各种属性和文本特征，这些文本特征可以在图像上打印出来。

特点

TextInVision数据集的特点在于，其提示集反映了现实世界的应用场景，以单词和提示复杂度为驱动，强调实际应用和动态环境中遇到的挑战。此外，数据集还包含了用于测试变分自编码器（VAE）模型在不同字符表示上的图像数据集，突出了VAE架构在扩散框架内文本生成方面的挑战。

使用方法

使用TextInVision数据集首先需要克隆仓库，然后根据需要更新配置文件并生成提示JSON。用户可以通过脚本下载VAE图像集，并通过提供的算法计算模型分数，该分数是通过整合三种不同的文本相似度方法来评估预期文本与OCR输出之间的匹配度。

背景与挑战

背景概述

TextInVision数据集的创建，旨在构建一个大规模的、基于文本和提示复杂性的视觉文本生成评估基准。该数据集由一系列研究人员设计，以评估扩散模型在图像中有效整合视觉文本的能力。TextInVision的引入，充分考虑了现实世界中的使用案例，并强调在实际动态环境中评估图像生成模型的新标准，对图像生成模型领域产生了显著影响。

当前挑战

该数据集面临的挑战主要在于：1) 如何准确评估扩散模型在图像中整合视觉文本的性能，特别是在文本和提示复杂性方面；2) 构建过程中，如何处理变分自动编码器（VAE）模型在不同字符表示上的挑战，以及确保VAE架构在扩散框架内进行文本生成时的有效性。

常用场景

经典使用场景

TextInVision数据集的构建旨在评估扩散模型将视觉文本有效融入图像的能力，其经典使用场景包括对扩散模型在动态环境中的图像生成性能进行评估，通过对模型在处理文字和提示复杂度方面的测试，以实现更贴近实际应用的评价标准。

实际应用

在实际应用中，TextInVision数据集可用于改进图像生成模型，以支持如个性化图像制作、广告设计、视觉艺术创作等场景，满足对图像中文字内容与样式的高度定制化需求。

衍生相关工作

基于TextInVision数据集，研究者可以进一步探索文字与图像交互的深层特性，衍生出的相关工作包括对VAE模型在字符表示上的挑战性研究，以及结合实际场景的提示指令生成算法的改进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集