Unitial-OCR
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Unitial-OCR
下载链接
链接失效反馈官方服务:
资源简介:
Unitail-OCR由一个开放式画廊和一个测试套件组成,该套件在内部操作产品匹配。所有已知的类别都在画廊中注册。如果是查询产品,则匹配算法会在库中找到排名最高的类别。图库包含1454细粒度和一次性产品类别。在这些产品中,10709文本区域和7565清晰的文本转录 (单词) 被注释。这使图库能够充当训练源和匹配参考。
测试套件包含四个组件
(1) 3012标记有18972文本区域的产品,用于文本检测。
(2) 在预本地化的文本区域中,13416可清晰的单词级转录用于文本识别。
(3) 1454类别的10k产品样品,用于产品匹配的一般评估。
(4) 从10k产品中,我们选择2.4k个细粒度样品 (在视觉上与人类相似),以对产品匹配进行硬示例评估。
提供机构:
OpenDataLab
创建时间:
2022-11-02
搜集汇总
数据集介绍

背景与挑战
背景概述
Unitail-OCR数据集包含一个开放式画廊和一个测试套件,画廊涵盖1454个细粒度产品类别,并标注了10709个文本区域和7565个单词转录。测试套件提供文本检测、识别及产品匹配的评估数据,包括3012个产品、18972个文本区域和13416个单词转录,以及用于一般和硬示例评估的10k和2.4k个产品样本。
以上内容由遇见数据集搜集并总结生成



