Nayana-cognitivelab/Nayana-DocOCR-in-14k-v1-arxiv

Name: Nayana-cognitivelab/Nayana-DocOCR-in-14k-v1-arxiv
Creator: Nayana-cognitivelab
Published: 2024-11-08 21:30:47
License: 暂无描述

Hugging Face2024-11-08 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/Nayana-cognitivelab/Nayana-DocOCR-in-14k-v1-arxiv

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种印度语言（如印地语、卡纳达语、孟加拉语等）的图像数据，每张图像都有对应的文本区域信息，包括区域ID、布局类型、边界框坐标、英文文本和翻译文本。数据集分为多个训练集，每个训练集对应一种语言，且每个训练集包含14175个样本。

This dataset contains image data in multiple Indian languages (such as Hindi, Kannada, Bengali, etc.), with each image having corresponding text region information, including region ID, layout type, bounding box coordinates, English text, and translated text. The dataset is divided into multiple training sets, each corresponding to a language, and each training set contains 14,175 samples.

提供机构：

Nayana-cognitivelab