CC-OCR V2
收藏CC-OCR V2 数据集详情
📖 概述
CC-OCR V2 是一个面向真实世界文档处理场景的综合性、高难度OCR基准数据集。该数据集旨在评估大型多模态模型(LMMs)在文档理解方面的能力,填补现有基准在任务范围与实际应用对齐不足、以及忽略采集条件异质性方面的空白。
CC-OCR V2 包含 7,093 个高难度样本,覆盖 5 个主要 OCR 中心任务轨道。实验表明,当前最先进的 LMMs 在多样化的任务和场景下仍存在显著的性能下降,难以满足实际应用需求。
🎯 基准任务轨道
CC-OCR V2 包含 5 个主要 OCR 中心任务轨道,用于评估模型在文档理解不同方面的能力:
- 文本识别:评估模型在各种真实场景(包括多场景和多语言文本)中准确识别文本的能力。
- 文档解析:评估模型解析复杂文档结构(包括表格、公式和分子结构)的能力。
- 文档定位:测试模型在文档图像中定位特定文本或对象的能力。
- 关键信息提取:评估从商业交易、公共服务和监管记录中提取结构化关键信息的能力。
- 文档问答:通过问答任务评估模型对文档内容的理解能力。
⚙️ 设置
安装依赖 bash pip install -r requirements.txt
🔧 推理
使用 src/request_openai.py 脚本通过兼容 OpenAI 的 API 对数据集进行推理:
bash python src/request_openai.py --ocr-root ocr_datasets/grounding/object_grounding --output results/model_name --model model_name --api-key YOUR_API_KEY --api-base YOUR_API_BASE
同时,scripts/ 目录下提供了用于运行所有任务推理的 shell 脚本:
bash
./scripts/run_openai_api.sh
📃 评估
推理完成后,使用评估脚本对结果进行评估。src/evaluate_results.py 脚本作为统一入口,路由到特定任务的评估器。
bash python src/evaluate_results.py --task <task_name> [args]
支持的任务:
recognition(文本识别)parsing/doc_parsing(文档解析)grounding(文档定位)kie(关键信息提取)vqa(文档问答)
示例:评估 KIE 结果: bash python src/evaluate_results.py --task kie --pred_dir results/model_name/kie --gt_dir ocr_datasets/extraction/answer/business_transactions
也可使用提供的 shell 脚本评估所有模型或任务: bash ./scripts/eval_all_models.sh
📝 引用
如果您认为本工作对您的研究有价值,请在出版物或项目中引用:
bibtex @article{xu2026ccocr, title={CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing}, author={Zhipeng Xu and Junhao Ji and Zulong Chen and Zhenghao Liu and Qing Liu and Chunyi Peng and Zubao Qin and Ze Xu and Jianqiang Wan and Jun Tang and Zhibo Yang and Shuai Bai and Dayiheng Liu}, journal={arXiv preprint arXiv:2605.03903}, year={2026} }




