CC-OCR V2
收藏CC-OCR V2 数据集概述
📖 数据集简介
CC-OCR V2 是一个面向真实世界文档处理的大规模多模态模型(LMM)OCR基准数据集,旨在评估模型在文档理解与文字识别方面的实际能力。该数据集聚焦于企业级文档处理任务,涵盖了以往基准中未被充分关注的困难场景和边界情况。
- 样本数量:总计 7,093 个高难度样本
- 论文地址:arXiv 2605.03903
- 数据集地址:Hugging Face
- 代码仓库:GitHub
🎯 基准测试轨道
CC-OCR V2 包含 5 个 OCR 核心基准测试轨道,覆盖文档理解的不同方面:
1. 文本识别(Text Recognition)
评估模型在多种真实场景下识别文字的能力,包括多场景和多语言文本。
2. 文档解析(Document Parsing)
评估模型解析复杂文档结构的能力,包括表格、公式和分子结构。
3. 文档定位(Document Grounding)
测试模型在文档图像中定位特定文本或对象的能力。
4. 关键信息提取(Key Information Extraction, KIE)
评估从商业交易、公共服务和受监管记录中提取结构化关键信息的能力。
5. 文档视觉问答(Document VQA)
通过问答任务评估模型对文档内容的理解能力。
⚙️ 环境配置
安装依赖: bash pip install -r requirements.txt
🔧 推理
使用 OpenAI 兼容 API 进行推理: bash python src/request_openai.py --ocr-root ocr_datasets/grounding/object_grounding --output results/model_name --model model_name --api-key YOUR_API_KEY --api-base YOUR_API_BASE
也可使用脚本批量运行: bash ./scripts/run_openai_api.sh
📃 评估
推理完成后,使用统一评估脚本: bash python src/evaluate_results.py --task <task_name> [args]
支持的任务:
recognition(文本识别)parsing/doc_parsing(文档解析)grounding(文档定位)kie(关键信息提取)vqa(文档视觉问答)
示例(评估KIE结果): bash python src/evaluate_results.py --task kie --pred_dir results/model_name/kie --gt_dir ocr_datasets/extraction/answer/business_transactions
📝 引用
若您的研究使用了本数据集,请引用: bibtex @article{xu2026ccocr, title={CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing}, author={Zhipeng Xu and Junhao Ji and Zulong Chen and Zhenghao Liu and Qing Liu and Chunyi Peng and Zubao Qin and Ze Xu and Jianqiang Wan and Jun Tang and Zhibo Yang and Shuai Bai and Dayiheng Liu}, journal={arXiv preprint arXiv:2605.03903}, year={2026} }

- 1CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing阿里巴巴集团; 东北大学 · 2026年



