ocr-bench-britannica-results-qwen35
收藏Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/davanstrien/ocr-bench-britannica-results-qwen35
下载链接
链接失效反馈官方服务:
资源简介:
OCR Bench Results: ocr-bench-britannica 是一个用于评估OCR模型性能的数据集。该数据集通过VLM-as-judge的成对评估方法对多个OCR模型进行排名,结果显示不同文档类型下没有单一的最佳OCR模型。数据集包含一个排行榜,展示了各模型的排名、ELO分数、95%置信区间、胜负平局次数及胜率。评估使用了Bradley-Terry最大似然估计方法,并计算了95%的置信区间。数据集包含476次比较,评估模型为Qwen3.5-35B-A3B。数据集分为多个配置:'default'、'comparisons'、'leaderboard'和'metadata',分别包含不同的训练数据文件。该数据集由ocr-bench项目生成,采用MIT许可证。
OCR Bench Results: ocr-bench-britannica is a benchmark dataset for evaluating OCR model performance. This dataset ranks multiple OCR models using the VLM-as-judge pairwise evaluation approach, and the results demonstrate that no single optimal OCR model exists across different document types. The dataset includes a leaderboard that displays each model's ranking, ELO score, 95% confidence interval, number of wins, losses, draws, and win rate. The evaluation adopts the Bradley-Terry maximum likelihood estimation method and calculates the 95% confidence interval. The dataset contains 476 comparison trials, with the evaluated model being Qwen3.5-35B-A3B. The dataset is divided into multiple configurations: 'default', 'comparisons', 'leaderboard' and 'metadata', each containing different training data files. This dataset is generated by the ocr-bench project and released under the MIT License.
创建时间:
2026-02-25
原始信息汇总
OCR Bench Results: ocr-bench-britannica 数据集概述
数据集基本信息
- 数据集名称: OCR Bench Results: ocr-bench-britannica
- 数据集地址: https://huggingface.co/datasets/davanstrien/ocr-bench-britannica-results-qwen35
- 许可证: MIT
- 标签: ocr-bench, leaderboard
数据配置
数据集包含四个配置:
default:数据文件路径为data/train-*.parquetcomparisons:数据文件路径为comparisons/train-*.parquetleaderboard:数据文件路径为leaderboard/train-*.parquetmetadata:数据文件路径为metadata/train-*.parquet
数据集内容描述
该数据集为VLM-as-judge对OCR模型的成对评估结果。排名取决于文档类型,不存在单一的“最佳”OCR模型。
排行榜结果
| 排名 | 模型 | ELO | 95% CI | 胜场 | 负场 | 平局 | 胜率 |
|---|---|---|---|---|---|---|---|
| 1 | zai-org/GLM-OCR | 1787 | 1727–1873 | 155 | 37 | 2 | 80% |
| 2 | lightonai/LightOnOCR-2-1B | 1780 | 1727–1863 | 138 | 37 | 1 | 78% |
| 3 | FireRedTeam/FireRed-OCR | 1551 | 1502–1623 | 100 | 92 | 2 | 52% |
| 4 | deepseek-ai/DeepSeek-OCR | 1437 | 1373–1507 | 75 | 118 | 1 | 39% |
| 5 | rednote-hilab/dots.ocr | 945 | 725–1045 | 5 | 189 | 0 | 3% |
评估详情
- 源数据集: https://huggingface.co/datasets/davanstrien/ocr-bench-britannica
- 评估模型: Qwen3.5-35B-A3B
- 比较次数: 476
- 评估方法: Bradley-Terry MLE with bootstrap 95% CIs
数据加载方式
load_dataset("davanstrien/ocr-bench-britannica-results-qwen35")— 加载排行榜数据load_dataset("davanstrien/ocr-bench-britannica-results-qwen35", name="comparisons")— 加载完整的成对比较日志load_dataset("davanstrien/ocr-bench-britannica-results-qwen35", name="metadata")— 加载评估运行历史
生成信息
该数据集由 ocr-bench 生成。
搜集汇总
数据集介绍
构建方式
在光学字符识别领域,评估模型的性能需要严谨的对比机制。ocr-bench-britannica-results-qwen35数据集通过视觉语言模型作为评判者,对多个OCR模型进行成对比较评估。其构建过程基于Bradley-Terry最大似然估计方法,并采用自助法计算95%置信区间,确保了排名的统计可靠性。数据集源自davanstrien/ocr-bench-britannica,共包含476组比较数据,通过系统化的评估流程生成模型间的胜负记录。
特点
该数据集的核心特点在于其动态的排名机制,强调没有单一的“最佳”OCR模型,性能优劣高度依赖于文档类型。它提供了多维度的配置,包括排行榜、完整的成对比较日志以及评估运行历史元数据,支持深入分析。数据集采用ELO评分系统呈现模型竞争力,并附有置信区间,增强了结果的可解释性。这种结构化的设计使得研究者能够洞察模型在不同场景下的表现差异。
使用方法
使用者可通过Hugging Face的load_dataset函数灵活加载不同配置的数据。默认配置直接提供排行榜表格,便于快速查看模型排名;指定name参数为'comparisons'可获取完整的成对比较日志,用于详细分析模型间的具体对比结果;而选择'metadata'配置则能访问评估运行的历史记录。这种分层访问方式支持从宏观排名到微观比较的多层次研究需求,助力OCR技术的优化与创新。
背景与挑战
背景概述
OCR-Bench-Britannica-Results-Qwen35数据集诞生于2024年,由davanstrien等研究人员构建,隶属于更广泛的OCR-Bench评估框架。该数据集旨在系统评估不同光学字符识别模型在历史文献数字化任务中的性能,其核心研究问题聚焦于如何客观、量化地比较前沿OCR模型在复杂文档上的识别准确率与鲁棒性。通过采用基于大语言模型的裁判机制与Bradley-Terry统计模型,该数据集为OCR领域提供了首个公开、可复现的基准测试平台,显著推动了文档分析与数字化保护研究的标准化进程。
当前挑战
该数据集致力于解决历史文献OCR任务中的模型评估挑战,其核心难点在于如何设计公平且全面的评价体系,以应对文档质量退化、版面复杂多样以及多语言混合等现实场景。在构建过程中,研究人员面临多重挑战:一是需要确保评估数据的高质量与代表性,涵盖不同年代、语言与印刷风格的文献样本;二是开发可靠的自动化评估流程,利用大语言模型作为裁判进行大规模成对比较,同时保证评判的客观性与一致性;三是处理统计建模中的不确定性,通过置信区间等方法量化模型排名的可靠性,从而为社区提供具有统计显著性的性能洞察。
常用场景
经典使用场景
在光学字符识别领域,评估模型性能常面临文档类型多样化的挑战。该数据集通过视觉语言模型作为评判者,对多个OCR模型进行成对比较,构建了一个基于大英百科全书内容的基准测试平台。其经典使用场景在于为研究人员提供标准化的评估框架,允许在不同文档类型下系统性地比较模型输出质量,从而揭示模型在复杂文本识别任务中的优劣差异。
解决学术问题
该数据集解决了OCR研究中模型评估缺乏统一、客观标准的问题。传统评估方法往往依赖人工标注或单一指标,难以全面反映模型在真实场景下的表现。通过引入视觉语言模型作为自动化评判者,并结合Bradley-Terry最大似然估计方法,该数据集为学术研究提供了可重复、统计稳健的模型排名机制,显著提升了评估结果的可靠性与可比性,推动了OCR技术评估方法的科学化进程。
衍生相关工作
该数据集衍生了一系列围绕OCR模型评估与优化的经典研究工作。基于其提供的成对比较日志和排名数据,研究者开发了更精细的评估指标,如文档类型敏感的性能分析框架。同时,它激励了后续基准测试平台的扩展,例如针对多语言或手写文本的OCR评估数据集,并促进了视觉语言模型在自动化评估任务中的应用探索,为OCR技术的持续演进奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



