five

davanstrien/handbooks-dots-ocr

收藏
Hugging Face2025-10-22 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/handbooks-dots-ocr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用DoTS.ocr模型对NationalLibraryOfScotland/Britain-and-UK-Handbooks-Dataset中的图像进行OCR(光学字符识别)处理生成的。数据集包含了源数据集的所有原始列,并新增了包含提取的文本内容的markdown列以及记录应用于该数据集的所有OCR模型的inference_info列。数据集包含100个样本,处理时间为3.2分钟。

This dataset is generated by applying OCR (Optical Character Recognition) on images from the NationalLibraryOfScotland/Britain-and-UK-Handbooks-Dataset using the DoTS.ocr model. It includes all original columns from the source dataset, plus a markdown column with the extracted text in markdown format and an inference_info column with JSON data on the OCR models applied. The dataset consists of 100 samples processed in 3.2 minutes.
提供机构:
davanstrien
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作