rajesh-1902/hindi-ocr-dataset
收藏Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/rajesh-1902/hindi-ocr-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: image
dtype: image
- name: text
dtype: string
- name: font_size
dtype: int64
- name: font_file
dtype: string
- name: word_count
dtype: int64
splits:
- name: train
num_bytes: 640433895.0
num_examples: 64000
- name: validation
num_bytes: 79587596.0
num_examples: 8000
- name: test
num_bytes: 79983164.0
num_examples: 8000
download_size: 792139137
dataset_size: 800004655.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征:
- 名称:图像(image),数据类型:图像数据
- 名称:文本(text),数据类型:字符串(string)
- 名称:字体大小(font_size),数据类型:64位整型(int64)
- 名称:字体文件(font_file),数据类型:字符串
- 名称:单词数(word_count),数据类型:64位整型
数据集划分:
- 名称:训练集(train),占用字节数:640433895.0,样本数量:64000
- 名称:验证集(validation),占用字节数:79587596.0,样本数量:8000
- 名称:测试集(test),占用字节数:79983164.0,样本数量:8000
下载总大小:792139137
数据集总大小:800004655.0
配置项:
- 配置名称:默认(default),数据文件映射:
- 训练集对应路径:data/train-*
- 验证集对应路径:data/validation-*
- 测试集对应路径:data/test-*
提供机构:
rajesh-1902



