TokenShrink-OCR
收藏TokenShrink-OCR 数据集概述
数据集基本信息
- 许可证: CC-BY-NC-4.0
- 语言: 英语
- 标签: OCR、文本识别、场景文本、图像转文本
- 规模: 10万-100万样本量级
数据集介绍
这是一个包含120,000张图像的大规模数据集,专为光学字符识别任务设计。所有图像均源自ImageNet数据库,提供了在复杂背景、不同光照条件和多样化字体下的具有挑战性的文本集合。
数据集结构
所有图像文件均采用分片存储结构。
数据划分
- 训练集
- 验证集
- 测试集
目录结构
每个数据划分都被分割为小型文件夹,每个文件夹包含1,000个文件。远程仓库中的目录结构如下:
|-- train/
| |-- 000/
| | |-- image_0000001.jpg
| | |-- image_0000002.jpg
| | -- ... (1,000个文件) | |-- 001/ | | |-- image_0001001.jpg | | -- ... (1,000个文件)
| |-- 002/
| | -- ... | -- ... (例如,最多到"119")
|
|-- validation/
| |-- 000/
| | |-- image_val_00001.jpg
| | -- ... (1,000个文件) | |-- 001/ | | -- ...
| -- ... | -- test/
|-- 000/
| |-- image_test_00001.jpg
| -- ... (1,000个文件) |-- 001/ | -- ...
`-- ...
使用方法
可以使用datasets库、imagefolder加载器和glob模式轻松加载所有分片数据。
安装依赖
bash pip install datasets
加载代码示例
python from datasets import load_dataset
REPO_ID = "LukB4UJump/TokenShrink-OCR" IMAGE_EXTENSION = "jpg"
data_files = { "train": f"{REPO_ID}::train//.{IMAGE_EXTENSION}", "validation": f"{REPO_ID}::validation//.{IMAGE_EXTENSION}", "test": f"{REPO_ID}::test//.{IMAGE_EXTENSION}" }
dataset = load_dataset( "imagefolder", data_files=data_files, streaming=True )
print(dataset)
加载选项
- 流式加载: 推荐用于大型数据集,无需下载全部120k图像,节省磁盘空间
- 完整下载: 需要足够磁盘空间,设置
streaming=False




