ocr-bench-britannica-results

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/davanstrien/ocr-bench-britannica-results

下载链接

链接失效反馈

官方服务：

资源简介：

OCR Bench Results: ocr-bench-britannica 是一个用于评估OCR模型性能的数据集，采用VLM-as-judge的成对评估方法。数据集的排名依赖于文档类型，因此不存在单一的“最佳”OCR模型。数据集包含多个配置，分别提供排行榜数据、完整的成对比较日志以及评估运行历史。排行榜中展示了各模型的ELO分数、95%置信区间、胜负记录及胜率等统计信息。该数据集可用于OCR模型的性能比较和基准测试，支持通过不同配置加载特定类型的数据。

创建时间：

2026-02-25

原始信息汇总

OCR Bench Results: ocr-bench-britannica 数据集概述

数据集基本信息

数据集名称: ocr-bench-britannica-results
许可证: MIT
标签: ocr-bench, leaderboard

数据集配置

数据集包含四个配置，每个配置的数据文件均为train分割的parquet格式：

default: 数据文件路径为 data/train-*.parquet
comparisons: 数据文件路径为 comparisons/train-*.parquet
leaderboard: 数据文件路径为 leaderboard/train-*.parquet
metadata: 数据文件路径为 metadata/train-*.parquet

数据集内容描述

本数据集为VLM-as-judge对OCR模型的成对评估结果。排名取决于文档类型，不存在单一的“最佳”OCR模型。

排行榜结果

排名	模型	ELO评分	95%置信区间	胜场	负场	平局	胜率
1	zai-org/GLM-OCR	1779	1710–1891	151	61	6	69%
2	lightonai/LightOnOCR-2-1B	1742	1685–1830	99	30	2	76%
3	deepseek-ai/DeepSeek-OCR	1438	1365–1508	56	84	2	39%
4	rednote-hilab/dots.ocr	1041	870–1130	6	137	0	4%

评估详情

源数据集: davanstrien/ocr-bench-britannica (https://huggingface.co/datasets/davanstrien/ocr-bench-britannica)
评判模型: Kimi-K2.5
比较对数: 317
评估方法: 采用Bradley-Terry最大似然估计法，并计算自助法95%置信区间

数据加载方式

加载排行榜数据：load_dataset("davanstrien/ocr-bench-britannica-results")
加载完整成对比较日志：load_dataset("davanstrien/ocr-bench-britannica-results", name="comparisons")
加载评估运行历史元数据：load_dataset("davanstrien/ocr-bench-britannica-results", name="metadata")

生成信息

数据集由 ocr-bench 工具生成。

搜集汇总

数据集介绍

构建方式

在光学字符识别领域，评估模型的性能需要严谨的基准测试。本数据集通过视觉语言模型作为评判者，对多个OCR模型进行成对比较评估。具体构建过程涉及从源数据集`davanstrien/ocr-bench-britannica`中提取样本，利用Qwen3.5-35B-A3B模型作为评判工具，执行了476次模型输出结果的直接对比。评估方法基于Bradley-Terry最大似然估计模型，并采用自助法计算95%置信区间，从而生成包含排名、ELO分数及胜负记录的排行榜，确保了评估结果的统计稳健性。

使用方法

使用本数据集时，用户可通过Hugging Face的`load_dataset`函数灵活加载不同配置。直接调用默认配置将获取排行榜数据，包括模型排名、ELO分数及置信区间等信息。若需深入探究模型间的具体比较过程，可指定`comparisons`配置以访问完整的成对比较日志。对于评估运行的历史记录，则可通过`metadata`配置获取。这种模块化的访问方式，便于用户根据研究需求，从整体评估到细节分析，高效地利用数据支撑OCR模型的性能分析与比较研究。

背景与挑战

背景概述

在光学字符识别技术持续演进并广泛应用于数字化存档与文本分析领域的背景下，ocr-bench-britannica-results数据集应运而生，它由研究机构或开源社区通过ocr-bench框架构建，旨在系统评估不同OCR模型在复杂文档图像上的性能。该数据集依托大语言模型作为评判者，采用成对比较与Bradley-Terry最大似然估计方法，为核心研究问题——即如何客观量化OCR模型在多样化文档类型上的准确性与鲁棒性——提供了实证基础。其创建不仅推动了OCR模型评估的标准化进程，也为相关领域的研究者与开发者提供了关键的基准参考，促进了模型优化与技术迭代。

当前挑战

该数据集致力于解决OCR领域模型性能评估的挑战，即传统指标难以全面反映模型在真实世界复杂文档上的实际表现，特别是面对字体多样性、版面布局不规则及图像质量退化等情形时。在构建过程中，挑战主要集中于设计公平且可扩展的评估框架，包括如何利用大语言模型实现自动化、可靠的质量评判，以及处理大规模成对比较数据时确保统计显著性。此外，整合多源文档类型并维持评估过程的一致性，亦是数据集构建中需要克服的关键难题。

常用场景

经典使用场景

在光学字符识别领域，评估模型性能常面临标准缺失的挑战，ocr-bench-britannica-results数据集通过系统化的成对比较，为研究者提供了模型排名的基准。该数据集利用视觉语言模型作为评判者，对多个OCR模型在百科全书文档上的输出进行精细对比，生成基于Elo评分体系的排行榜，从而直观展示不同模型在特定文档类型下的相对优劣，成为模型选择与优化的重要参考。

解决学术问题

该数据集有效解决了OCR研究中模型评估主观性强、缺乏统一量化标准的问题。通过引入Bradley-Terry最大似然估计与自助法置信区间，它将模型性能转化为可统计比较的分数，并揭示了文档类型对OCR效果的关键影响，打破了“单一最优模型”的迷思。这为学术研究提供了严谨的评估框架，推动了OCR技术向更稳健、更适应场景差异的方向发展。

实际应用

在实际应用中，该数据集指导开发者为特定类型的文档（如历史档案、学术文献或数字化书籍）选择最合适的OCR引擎。图书馆、档案馆及数字人文项目可依据其排行榜，针对百科全书等复杂版式文档，部署错误率更低、识别精度更高的模型，从而提升大规模文本数字化的效率与质量，降低人工校对成本，加速文化遗产的数字化保存与利用进程。

数据集最近研究