storytracer/dots-mocr-latin-test-layout
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/storytracer/dots-mocr-latin-test-layout
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含使用dots.mocr模型对拉丁测试输入图像进行OCR处理的结果。dots.mocr是一个3B多语言模型,具有先进的文档解析和SVG生成能力。数据集包含原始列以及新增的markdown列(提取的文本以markdown格式存储)和inference_info列(记录所有应用于该数据集的OCR模型的JSON列表)。处理细节包括源数据集、模型、样本数量、处理时间、配置参数等。模型支持100多种语言,擅长表格提取、公式保留、布局感知、网页屏幕解析、场景文本检测和SVG代码生成。
This dataset contains OCR results from images in Latin test input using dots.mocr, a 3B multilingual model with state-of-the-art document parsing and SVG generation. The dataset includes all original columns plus a markdown column (extracted text in markdown format) and an inference_info column (JSON list tracking all OCR models applied to this dataset). Processing details cover the source dataset, model, number of samples, processing time, and configuration parameters. The model excels in 100+ languages support, table extraction, formula preservation, layout awareness, web screen parsing, scene text spotting, and SVG code generation.
提供机构:
storytracer



