seemorg/books-ocr
收藏Hugging Face2025-05-02 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/seemorg/books-ocr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含5个json文件,每个文件包含多个对象,每个对象代表一页内容,包含页面的OCR文本、审核后的HTML格式内容以及页码信息。OCR文本内容为阿拉伯语,涉及法律或宗教方面的论述。
The dataset consists of 5 json files, each containing multiple objects representing a page, including OCR text, reviewed HTML content, and page number information. The OCR text is in Arabic and contains legal or religious discussions.
提供机构:
seemorg



