five

datalab-to/ocr_finetune_example

收藏
Hugging Face2025-08-08 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/datalab-to/ocr_finetune_example
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于微调Surya OCR模型的数据集。数据集包含图片和对应的文本转录。图片可以是整页文档、文本块或单行文本。对于数学内容,需要使用特定的LaTeX标记。数据集支持各种宽高比、不同类型和质量的照片,可以通过组合不同类型的样本以提高模型的鲁棒性。

This dataset is for finetuning the Surya OCR model. It consists of images and their corresponding text transcriptions. Images can be full-page documents, text blocks, or single-line snippets. Math content needs to be marked with specific LaTeX tags. The dataset supports various aspect ratios, image types, and qualities, and you can enhance model robustness by combining different sample types.
提供机构:
datalab-to
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作