CaptionEmporium/TextOCR-GPT4o
收藏数据集卡片 for TextOCR-GPT4o
数据集描述
- 联系人: Caption Emporium
数据集概述
TextOCR-GPT4o 是 Meta 的 TextOCR 数据集 经过 GPT4o 模型处理,强调文本 OCR 的描述。获取图像需要同意他们的服务条款。
支持的任务
TextOCR-GPT4o 数据集旨在生成用于比较 VLM 与 GPT4o 的基准测试。
语言
描述语言为英语,图像中的文本包含多种语言,如西班牙语、日语和印地语。
原始提示
caption 字段是使用以下提示通过 gpt-4o 模型生成的:
请以以下方式描述这张图片的内容:(1)在标题为“DESCRIPTION”的部分用一到两句话描述(2)在标题为“TEXT”的部分转录图片中的任何文本及其位置。
例如,您可能会描述一张中心有“COCONUT”字样的棕榈树图片为:
DESCRIPTION 海滩上的一棵棕榈树的照片,背景是蓝天,天气晴朗。图像中心有一个蓝色文字标志,带有白色轮廓。
TEXT 图像中心的文字标志写着“COCONUT”。
请确保描述图片中找到的所有文本。
数据实例
"train" 的一个示例如下:
json { "filename": "aabbccddeeff0011.jpg", "caption": "DESCRIPTION 一个香蕉。
TEXT 香蕉上有一个贴纸,上面写着“Fruit Company”。", "caption_image": "一个香蕉。", "caption_text": "香蕉上有一个贴纸,上面写着“Fruit Company”。", }
数据字段
数据字段如下:
filename: 来自原始 TextOCR 数据集 的图像文件名。caption: 包含DESCRIPTION和TEXT部分的描述。caption_image: 描述的DESCRIPTION部分。caption_text: 描述的TEXT部分。
数据分割
| train | |
|---|---|
| TextOCR-GPT4o | 25117 |
数据使用注意事项
数据集的社会影响
[更多信息需要]
偏见讨论
[更多信息需要]
其他已知限制
TextOCR-GPT4o 数据由视觉语言模型 (gpt-4o) 生成,不可避免地包含一些错误或偏见。我们鼓励用户谨慎使用此数据,并提出新的方法来过滤或改进这些不完美之处。




