five

CC-OCR V2

收藏
github2026-05-09 更新2026-05-15 收录
下载链接:
https://github.com/Eioss/CC-OCR-V2
下载链接
链接失效反馈
官方服务:
资源简介:
CC-OCR V2是一个全面且具有挑战性的OCR基准,专为真实世界文档处理而设计。它包含7,093个高难度样本,覆盖5个主要OCR中心任务轨道,包括文本识别、文档解析、文档接地、关键信息提取和文档问答,旨在评估大模态模型在实际企业文档处理任务中的能力。

CC-OCR V2 is a comprehensive and challenging OCR benchmark designed for real-world document processing. It contains 7,093 high-difficulty samples, covering 5 core OCR task tracks, including text recognition, document parsing, document grounding, key information extraction, and document question answering, aiming to evaluate the capabilities of large multimodal models in practical enterprise document processing tasks.
创建时间:
2026-04-30
原始信息汇总

CC-OCR V2 数据集详情

📖 概述

CC-OCR V2 是一个面向真实世界文档处理场景的综合性、高难度OCR基准数据集。该数据集旨在评估大型多模态模型(LMMs)在文档理解方面的能力,填补现有基准在任务范围与实际应用对齐不足、以及忽略采集条件异质性方面的空白。

CC-OCR V2 包含 7,093 个高难度样本,覆盖 5 个主要 OCR 中心任务轨道。实验表明,当前最先进的 LMMs 在多样化的任务和场景下仍存在显著的性能下降,难以满足实际应用需求。

🎯 基准任务轨道

CC-OCR V2 包含 5 个主要 OCR 中心任务轨道,用于评估模型在文档理解不同方面的能力:

  1. 文本识别:评估模型在各种真实场景(包括多场景和多语言文本)中准确识别文本的能力。
  2. 文档解析:评估模型解析复杂文档结构(包括表格、公式和分子结构)的能力。
  3. 文档定位:测试模型在文档图像中定位特定文本或对象的能力。
  4. 关键信息提取:评估从商业交易、公共服务和监管记录中提取结构化关键信息的能力。
  5. 文档问答:通过问答任务评估模型对文档内容的理解能力。

⚙️ 设置

安装依赖 bash pip install -r requirements.txt

🔧 推理

使用 src/request_openai.py 脚本通过兼容 OpenAI 的 API 对数据集进行推理:

bash python src/request_openai.py --ocr-root ocr_datasets/grounding/object_grounding --output results/model_name --model model_name --api-key YOUR_API_KEY --api-base YOUR_API_BASE

同时,scripts/ 目录下提供了用于运行所有任务推理的 shell 脚本: bash ./scripts/run_openai_api.sh

📃 评估

推理完成后,使用评估脚本对结果进行评估。src/evaluate_results.py 脚本作为统一入口,路由到特定任务的评估器。

bash python src/evaluate_results.py --task <task_name> [args]

支持的任务:

  • recognition(文本识别)
  • parsing / doc_parsing(文档解析)
  • grounding(文档定位)
  • kie(关键信息提取)
  • vqa(文档问答)

示例:评估 KIE 结果: bash python src/evaluate_results.py --task kie --pred_dir results/model_name/kie --gt_dir ocr_datasets/extraction/answer/business_transactions

也可使用提供的 shell 脚本评估所有模型或任务: bash ./scripts/eval_all_models.sh

📝 引用

如果您认为本工作对您的研究有价值,请在出版物或项目中引用:

bibtex @article{xu2026ccocr, title={CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing}, author={Zhipeng Xu and Junhao Ji and Zulong Chen and Zhenghao Liu and Qing Liu and Chunyi Peng and Zubao Qin and Ze Xu and Jianqiang Wan and Jun Tang and Zhibo Yang and Shuai Bai and Dayiheng Liu}, journal={arXiv preprint arXiv:2605.03903}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
在现实世界的企业文档处理中,现有基准因任务范围偏离实际应用且假设采集条件一致而存在局限。为弥补这一空白,CC-OCR V2 被构建为一个全面且具有挑战性的 OCR 基准。该数据集从企业实际业务场景出发,精心挑选了 7,093 个高难度样本,覆盖文本识别、文档解析、文档定位、关键信息抽取及文档问答五大核心测评轨道,聚焦于先前基准中遗漏的困难与边缘案例。
特点
CC-OCR V2 的数据集特点鲜明:首先,其样本全部源自真实企业文档处理场景,具有极高的难度与复杂性,涵盖多场景、多语言文本以及表格、公式、分子结构等复杂文档结构。其次,数据集设计了五个差异化的测评轨道,分别评估模型在文本识别精准度、文档结构解析能力、精准定位能力、关键信息结构化抽取能力以及基于文档内容的问答理解能力,构成了对多模态大模型文档素养的全方位检验。
使用方法
使用 CC-OCR V2 时,首先需通过 pip 安装依赖。推理阶段,利用 request_openai.py 脚本并指定 OCR 数据根目录、模型名称及 API 密钥等参数,即可对接兼容 OpenAI 的 API 进行预测。评估阶段,通过 evaluate_results.py 脚本统一入口,依据任务类型(如识别、解析、定位、信息抽取、问答)指定对应参数,并将其与真实标注进行比对,从而量化模型在各维度上的表现。
背景与挑战
背景概述
随着大型多模态模型在光学字符识别任务中展现出强劲性能,其在文档理解领域的潜力备受瞩目。然而,现有基准测试因任务范围偏离实际应用且假设采集条件同质化,对模型在真实场景中文档素养能力的评估仍存空白。为此,Zhipeng Xu、Junhao Ji等研究团队于2026年推出CC-OCR V2数据集,旨在填补这一关键缺口。该数据集聚焦企业级文档处理,涵盖7093个高难度样本,横跨文本识别、文档解析、定位、关键信息提取及视觉问答五大核心赛道。通过对14个先进多模态模型的系统评测,CC-OCR V2揭示了当前模型在多样化真实场景下的性能退化现象,为领域内研究树立了新的挑战性基准。
当前挑战
CC-OCR V2所解决的领域挑战在于现有OCR基准无法真实反映模型在非理想条件下的文档理解能力,如多场景多语言文本识别、复杂结构文档解析及精准信息定位等,这些恰是实际应用中频繁遭遇的难题。在构建过程中,团队面临两大挑战:一是需设计覆盖企业业务交易、公共服务等多样场景的高难度样本,确保基准的实用性与代表性;二是需构建统一且具判别性的评估框架,以公平比较不同模型在多任务上的表现。这些挑战使得数据集不仅能揭示当前模型的局限,更推动了文档智能处理领域向更深层次的真实应用场景迈进。
常用场景
经典使用场景
CC-OCR V2作为一项面向复杂现实文档处理的综合性OCR基准测试,其经典使用场景聚焦于评估大型多模态模型(LMMs)在真实企业级文档环境中的文字素养能力。该数据集涵盖了7,093个高难度样本,精心设计了五个以OCR为核心的赛道,包括文本识别、文档解析、文档定位、关键信息抽取及文档问答。尤其在表格、公式、分子结构等复杂文档结构解析,以及多场景、多语言文本识别方面,CC-OCR V2提供了独特的评估维度,有效填补了现有基准测试与实际应用之间的鸿沟。
解决学术问题
该数据集系统性解决了学术研究中现有OCR基准测试任务范围与实际应用脱节、且假定数据采集条件均质化的核心问题。通过纳入大量硬性样本和边缘案例,CC-OCR V2揭示了当前最先进LMMs在多样化任务和场景下性能显著下降的现象,为领域内研究者提供了重新审视模型鲁棒性与泛化能力的重要依据。其研究意义在于推动了文档文字素养从实验室环境向真实复杂场景的跨越,为构建更具实用价值的多模态理解模型奠定了坚实基础。
衍生相关工作
CC-OCR V2的发布催生了一系列围绕文档理解深度优化的衍生工作。研究者基于其五大赛道设计,提出了针对复杂表格解析、跨模态文档定位、以及少样本关键信息抽取的新颖模型架构。例如,结合视觉与语言预训练策略的文档问答系统、面向结构化文档的端到端解析网络等。此外,该数据集还推动了OCR评测标准的发展,涌现了如多粒度文档理解基准融合、噪声鲁棒性增强等一批高质量研究,持续丰富着多模态文档智能领域的理论体系与方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作