TextInVision
收藏✨TextInVision: 文本和提示复杂度驱动的视觉文本生成基准
Overview
TextInVision是一个大规模的、文本和提示复杂度驱动的基准,旨在评估扩散模型有效整合视觉文本进入图像的能力。该数据集包含了考虑各种属性和文本特征的多样化提示和文本集合。
File Structure
以下是该存储库中文件的概览:
| Filename | Type | Description |
|---|---|---|
all_texts.csv |
CSV | 包含TextInVision提示集中使用的所有文本。 |
all_prompts.csv |
CSV | 包含TextInVision提示集中使用的所有提示(指令)。 |
real_world_prompts.json |
JSON | 包含来自现实世界情境的指令(提示)。 |
vae_images_metadata.json |
JSON | 包含TextInVision图像集中使用的图像的元数据,包括图像链接和其他详细信息。 |
config.json |
JSON | 包含两个部分:提示和文本。每个部分都包含各种过滤属性,结合逻辑运算符。 |
Usage
-
Clone the repository
bash git clone https://github.com/TextinVision/TextinVision.git
-
Generate the Prompts JSON
更新
config.json文件,添加你想要的过滤器,并运行:bash python prompt_text_selection.py
生成的JSON中的一个示例条目可能如下所示:
json "A cat holding a sign with the text "Happy 25th Birthday!" on it.": { "text": "Happy 25th Birthday!", ... "prompt_type": "simple", "prompt_word_length": 10, "prompt_char_length": 34 }
-
Download VAE Image Set
要使用提供的
vae_images_metadata.json下载VAE测试图像集,运行:bash python download_VAE_image_set.py
-
Score Computation via Algorithm 1
模型获得的分数是通过算法1计算的,该算法集成了三种不同的文本相似度方法(最长有序匹配、最长公共子序列和智能Levenshtein距离),以评估预期文本和OCR输出之间的对齐情况。
你需要两个CSV文件:一个用于预期文本,一个用于OCR输出,每个文件都包含一个名为"content"的列。然后运行脚本,将生成score.csv文件。
bash python score.py




