five

CC-OCR V2

收藏
arXiv2026-05-05 更新2026-05-08 收录
下载链接:
https://github.com/eioss/CC-OCR-V2
下载链接
链接失效反馈
官方服务:
资源简介:
CC-OCR V2是由阿里巴巴集团与东北大学联合构建的大规模多模态文档处理基准数据集,聚焦现实场景中的复杂OCR任务。该数据集包含7,093个高难度样本,涵盖文本识别、文档解析、定位、关键信息抽取和问答五大核心任务,覆盖32种语言和74种现实场景。数据来源于生产环境中的真实文档、公开语料库以及人工构建的极端案例,通过多阶段标注和模型过滤确保质量。该数据集旨在评估大模型在金融票据、合同、档案等实际业务文档中的跨模态理解与推理能力,推动文档智能技术的工业级应用。
提供机构:
阿里巴巴集团; 东北大学
创建时间:
2026-05-05
原始信息汇总

CC-OCR V2 数据集概述

📖 数据集简介

CC-OCR V2 是一个面向真实世界文档处理的大规模多模态模型(LMM)OCR基准数据集,旨在评估模型在文档理解与文字识别方面的实际能力。该数据集聚焦于企业级文档处理任务,涵盖了以往基准中未被充分关注的困难场景和边界情况。


🎯 基准测试轨道

CC-OCR V2 包含 5 个 OCR 核心基准测试轨道,覆盖文档理解的不同方面:

1. 文本识别(Text Recognition)

评估模型在多种真实场景下识别文字的能力,包括多场景和多语言文本。

2. 文档解析(Document Parsing)

评估模型解析复杂文档结构的能力,包括表格、公式和分子结构。

3. 文档定位(Document Grounding)

测试模型在文档图像中定位特定文本或对象的能力。

4. 关键信息提取(Key Information Extraction, KIE)

评估从商业交易、公共服务和受监管记录中提取结构化关键信息的能力。

5. 文档视觉问答(Document VQA)

通过问答任务评估模型对文档内容的理解能力。


⚙️ 环境配置

安装依赖: bash pip install -r requirements.txt


🔧 推理

使用 OpenAI 兼容 API 进行推理: bash python src/request_openai.py --ocr-root ocr_datasets/grounding/object_grounding --output results/model_name --model model_name --api-key YOUR_API_KEY --api-base YOUR_API_BASE

也可使用脚本批量运行: bash ./scripts/run_openai_api.sh


📃 评估

推理完成后,使用统一评估脚本: bash python src/evaluate_results.py --task <task_name> [args]

支持的任务

  • recognition(文本识别)
  • parsing / doc_parsing(文档解析)
  • grounding(文档定位)
  • kie(关键信息提取)
  • vqa(文档视觉问答)

示例(评估KIE结果): bash python src/evaluate_results.py --task kie --pred_dir results/model_name/kie --gt_dir ocr_datasets/extraction/answer/business_transactions


📝 引用

若您的研究使用了本数据集,请引用: bibtex @article{xu2026ccocr, title={CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing}, author={Zhipeng Xu and Junhao Ji and Zulong Chen and Zhenghao Liu and Qing Liu and Chunyi Peng and Zubao Qin and Ze Xu and Jianqiang Wan and Jun Tang and Zhibo Yang and Shuai Bai and Dayiheng Liu}, journal={arXiv preprint arXiv:2605.03903}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
CC-OCR V2的构建以CC-OCR为基础,通过大规模收集、系统化标注与难度感知过滤的流水线完成。数据源自三个互补渠道:对原CC-OCR数据集中与实战场景不符的样本进行人工筛除;从公开文档语料和网络资源中补充真实应用中常见但现有基准覆盖不足的文档类型;将生产环境中多个大语言模型(LMM)的失败案例与角落情形纳入,这些样本通过下游用户对模型错误输出的反馈积累而来。每个样本由主标注员初步标注后,经多位审核员复核并共识裁决分歧,确保标注质量。随后采用模型驱动过滤,剔除多个代表性LMM均可稳定解决的实例,仅保留对评估先进模型具有区分度的高难度样本。最终数据集覆盖5大OCR核心赛道和74个场景,共7093个精心筛选的高难度样本。
特点
CC-OCR V2的核心特点在于其现实导向与全面性。它统一了文本识别、文档解析、文本定位、关键信息提取和文档问答五大任务,覆盖32种语言和包括手写、自然场景扭曲、低质量拍摄等在内的真实世界噪声模式,远超此前仅关注干净电子文档的基准。48%的标注为本次升级新增,20%的文档图像来自生产环境中的未公开困难案例,直接反映实际应用中的模型失败模式。不同任务间性能差异显著,定位任务尤为挑战,揭示了现有LMM在细粒度空间推理与跨模态对齐上的根本性弱点,从而有效区分模型能力并暴露实际部署中的不足。
使用方法
CC-OCR V2的使用需遵循端到端评估协议:将文档图像与任务特定指令输入LMM,模型输出对应的结果,如识别文本、结构化代码、边界框或问答回答。评估采用任务定制指标:识别用micro-F1,解析用标准化编辑距离或树编辑距离,定位基于IoU准确率,提取在场级精确匹配F1值,问答结合归一化Levenshtein相似度与精确匹配。所有模型在固定温度0下运行,借助vLLM与FlashAttention进行设备端部署,通过OpenAI兼容接口访问服务器端模型。数据集及评测工具包已公开发布于GitHub,支持对15个先进LMM的细致评估,尤其适用于分析不同文档类型和场景下的性能退化。
背景与挑战
背景概述
CC-OCR V2是由阿里巴巴集团与东北大学于2026年联合推出的一款面向真实世界文档处理的大规模多模态模型评估基准。该基准致力于弥合现有OCR评测与实际企业应用之间的鸿沟,聚焦于文本识别、文档解析、文本定位、关键信息抽取及文档问答五大核心任务,涵盖74个细粒度场景与7,093个高难度样本。其创建不仅系统扩展了前代CC-OCR的任务范畴,更从生产环境中引入了大量硬例与边缘案例,显著提升了评测的实战性与区分度。CC-OCR V2的发布为衡量大型多模态模型在复杂、多变文档场景中的真实素养提供了更具挑战性的标尺,有力推动了文档智能领域从实验室到工业落地的评估范式转型。
当前挑战
当前大型多模态模型在现有OCR基准上接近饱和,却在实际文档处理中表现欠佳,暴露出显著的泛化瓶颈。首先,现有基准多聚焦于清洁、数字渲染的文档,忽视了真实场景中常见的噪声、扭曲与异构布局,导致模型对物理采集文档的鲁棒性不足。其次,任务覆盖的缺失与冗余并存,缺乏对定位、结构化抽取等关键实操能力的系统性评测,难以支撑企业级高可靠性应用。此外,构建过程面临严峻挑战:生产环境中收集的失败案例与长尾样本标注难度极高,需经多阶段人工核验与模型驱动筛选以保障质量,同时须平衡多语种、多模态、多格式下的样本分布,避免评测偏差。
常用场景
经典使用场景
CC-OCR V2作为一项综合性OCR评测基准,主要用于评估大型多模态模型在真实文档处理场景中的文字素养能力。其经典使用场景涵盖五大核心任务:文本识别、文档解析、文本定位、关键信息抽取以及文档问答。这套基准精心汇集了7,093个高难度样本,覆盖74个真实世界场景,尤其聚焦于传统基准中容易被忽视的困难样本与边界情境,如多语种识别、自然场景畸变文本、复杂表格与公式解析,以及财务文档与仪表盘的问答推理,为系统性地诊断模型在真实生产环境中的表现提供了严苛的试验场。
衍生相关工作
CC-OCR V2的发布催生了一系列与之紧密相关的学术探索。基于其揭示的模型在文本定位任务上的普遍薄弱表现,研究者们开始致力于发展布局感知推理方法,例如引入视觉链式框推理与渐进式放大策略以增强模型的空间定位能力。针对关键信息抽取在复杂版式下的失效问题,后续工作探索了基于强化学习的迭代式视觉检索增强生成框架与文本感知的端到端推理优化。此外,该基准对多语种与多样化文档类型的覆盖,也直接启发了面向真实场景的文档合成训练方法与跨模态对齐技术,推动了文档智能领域从单一任务评测向系统性鲁棒性评估的迈进。
数据集最近研究
最新研究方向
当前,随着大型多模态模型(LMMs)在文档智能领域的快速演进,如何弥合其在标准化基准测试与现实企业级文档处理之间的性能鸿沟成为学界与工业界共同关注的核心议题。CC-OCR V2正是在此背景下应运而生,它聚焦于真实生产环境中的文档理解挑战,系统性覆盖文本识别、文档解析、语义定位、关键信息抽取及文档问答五大核心任务,并特别纳入了以往基准中严重缺失的高难度样本与边缘案例。该基准揭示了一个严峻的现实:即便是最先进的LMMs,在面对真实世界中的畸变、复杂版面与多语言场景时,性能亦出现显著滑坡,尤其在关键信息定位与跨模态对齐任务中暴露出结构性弱点。这一发现不仅打破了现有基准趋于饱和的认知,更推动了领域向构建更具鲁棒性、可追溯与可审计的文档智能系统迈进,为下一代企业级自动化文档处理应用奠定了坚实的评估基础与方法论指导。
相关研究论文
  • 1
    CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing阿里巴巴集团; 东北大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作