olmOCR-bench-1.5-preview
收藏Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/allenai/olmOCR-bench-1.5-preview
下载链接
链接失效反馈官方服务:
资源简介:
olmOCR-bench-1.5-preview 是原始 olmOCR-bench 数据集的后续预览版,新增了多个合成基准测试类别。该数据集包含原始 1,403 个 PDF 文件及 7,010 个手动创建的单元测试案例,并新增了设计用于测试困难 OCR 场景的合成测试。所有合成案例均从 dolma3_mix-6T 相同的分布中采样 PDF,然后使用 Claude 重新渲染为干净的语义 HTML,并自动提取测试案例。基准测试现包含 28,770 个测试案例,涵盖 3,401 个独特 PDF 文件,分布在 15 个类别中。
数据集类别包括:旋转页面(测试旋转不变性)、空白页面(测试模型幻觉)、合成精确匹配(测试错字识别)、合成脚注(测试上下标转录)、合成格式(测试粗体、斜体和标题标签应用)、合成复杂表格(测试表格表示)、合成通用(测试主要 OCR 能力)和合成密集(测试密集文本和小字体)。
数据集还提供了详细的评估标准,包括文本存在、文本缺失、自然阅读顺序、表格准确性、数学公式准确性、格式、脚注和基线测试。数据集采用 ODC-BY-1.0 许可,适用于研究和教育用途。
提供机构:
Allen Institute for AI
创建时间:
2026-03-21



