five

BEE-spoke-data/SurvivorLib-Nanonets-OCR-s

收藏
Hugging Face2025-12-29 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/SurvivorLib-Nanonets-OCR-s
下载链接
链接失效反馈
官方服务:
资源简介:
Survivor Library书籍的OCR版本数据集,包含书籍文本信息,按照页进行OCR处理,由Nanonets-OCR-s完成识别。数据集分为训练集,包含14383个样本,数据集大小约为8561.91亿字节。数据集特征包括书籍的section、filename、text和detected_lang。

An OCR version dataset of Survivor Library books, containing book text information, processed by OCR on a per-page basis, with OCR recognition completed by Nanonets-OCR-s. The dataset is divided into a training set, containing 14,383 samples, with a dataset size of approximately 8,561.91 billion bytes. Dataset features include book section, filename, text, and detected language.
提供机构:
BEE-spoke-data
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作