five

seemorg/books-ocr

收藏
Hugging Face2025-05-02 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/seemorg/books-ocr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含5个json文件,每个文件包含多个对象,每个对象代表一页内容,包含页面的OCR文本、审核后的HTML格式内容以及页码信息。OCR文本内容为阿拉伯语,涉及法律或宗教方面的论述。

The dataset consists of 5 json files, each containing multiple objects representing a page, including OCR text, reviewed HTML content, and page number information. The OCR text is in Arabic and contains legal or religious discussions.
提供机构:
seemorg
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作