five

Nexdata/4995_Vietnamese_OCR_Images_Data_Images_with_Annotation_and_Transcription

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/4995_Vietnamese_OCR_Images_Data_Images_with_Annotation_and_Transcription
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-nd-4.0 --- ## Description 4,995 Vietnamese OCR Images Data - Images with Annotation and Transcription. The data includes 258 images of natural scenes, 2,553 Internet images, 2,184 document images. For line-level content annotation, line-level quadrilateral bounding box annotation and test transcription was adpoted; for column-level content annotation, column-level quadrilateral bounding box annotation and text transcription was adpoted. The data can be used for tasks such as Vietnamese recognition in multiple scenes. For more details, please refer to the link: https://www.nexdata.ai/dataset/1059?source=Huggingface ## Data size 4,995 OCR images, including 258 images of natural scenes, 2,553 Internet images, 2,184 document images ## Collecting environment including natural scenes (plaque, packaging instructions, small advertisements, menus, posters, etc.), Internet images (magazine covers, comic covers, etc.), document images (text documents, etc.) ## Data diversity including multiple scenes, multiple angles, different light conditions ## Device cellphone ## Shooting angles looking up angle, eye-level angle ## Format the image data format is .jpg, the annotated file format is .json ## Annotation content line-level quadrilateral bounding box annotation and transcription for the texts; column-level quadrilateral bounding box annotation and transcription for the texts ## Accuracy the error bound of each vertex of quadrilateral bounding box is within 10 pixels, which is a qualified annotation, the accuracy of bounding boxes is not less than 97%; the texts transcription accuracy is not less than 97% # Licensing Information Commercial License
提供机构:
Nexdata
原始信息汇总

数据集概述

数据集描述

  • 名称: 4,995 Vietnamese OCR Images Data
  • 内容: 包含4,995张图像,分为三类:258张自然场景图像、2,553张互联网图像、2,184张文档图像。
  • 用途: 适用于越南语在多种场景下的识别任务。
  • 注释方式:
    • 行级内容: 采用行级四边形边界框注释和文本转录。
    • 列级内容: 采用列级四边形边界框注释和文本转录。

数据规模

  • 总数: 4,995张OCR图像
  • 分类:
    • 自然场景图像: 258张
    • 互联网图像: 2,553张
    • 文档图像: 2,184张

收集环境

  • 自然场景: 包括牌匾、包装说明、小型广告、菜单、海报等。
  • 互联网图像: 包括杂志封面、漫画封面等。
  • 文档图像: 包括文本文档等。

数据多样性

  • 场景: 包括多种场景。
  • 角度: 包括多个角度。
  • 光照条件: 包括不同的光照条件。

设备

  • 拍摄设备: 手机

拍摄角度

  • 角度类型: 仰视角度、平视角度

格式

  • 图像格式: .jpg
  • 注释文件格式: .json

注释内容

  • 行级注释: 四边形边界框和文本转录。
  • 列级注释: 四边形边界框和文本转录。

准确性

  • 边界框: 每个顶点的误差范围在10像素内,边界框准确率不低于97%。
  • 文本转录: 准确率不低于97%。

许可证信息

  • 许可证: 商业许可证
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作