five

CC-OCR|OCR技术数据集|多模态模型数据集

收藏
arXiv2024-12-05 更新2024-12-07 收录
OCR技术
多模态模型
下载链接:
https://github.com/QwenLM/CC-OCR
下载链接
链接失效反馈
资源简介:
CC-OCR是由阿里巴巴集团和华中科技大学共同创建的综合性OCR基准数据集,旨在评估大型多模态模型在识字能力方面的表现。该数据集包含四个主要任务:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取,涵盖39个子任务,包含7,058张全标注图像,其中41%来自实际应用。数据集的创建过程注重多样性、实用性和挑战性,涵盖自然场景、真实文档和手写图像等多种数据源。CC-OCR的应用领域广泛,包括文档数字化、办公机器人和城市监控等,旨在解决复杂文本识别和多模态理解的问题。
提供机构:
阿里巴巴集团
创建时间:
2024-12-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
CC-OCR数据集的构建遵循多样性、实用性和挑战性的原则,涵盖了多种场景和任务。数据来源包括现有的具有合格注释的基准数据集、需要重新注释以满足LMMs评估标准的数据集,以及自收集的数据集。具体而言,CC-OCR包括四个以OCR为中心的赛道:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。数据集包含39个子集,共7058张全注释图像,其中41%来自实际应用,首次发布。
特点
CC-OCR数据集的特点在于其全面性和挑战性。它不仅涵盖了多种语言和场景,还包括了细粒度的视觉挑战,如方向敏感性、定位、自然噪声和艺术文本。此外,数据集还包括了多种表达形式的解码和结构化输入输出,如数学公式、化学分子式、HTML和JSON格式。这些特点使得CC-OCR成为评估大型多模态模型在OCR任务中能力的理想基准。
使用方法
CC-OCR数据集的使用方法包括对多场景文本阅读、多语言文本阅读、文档解析和关键信息提取任务的评估。评估方法包括使用类似于TextMonkey的Eval-Trans和EvalPos指标进行OCR评估,以及使用归一化编辑距离(NED)和树编辑距离相似性(TEDS)进行文档解析评估。对于关键信息提取任务,采用字段级别的F1分数进行评估。此外,数据集还提供了详细的注释和评估方法,确保模型性能的准确评估。
背景与挑战
背景概述
CC-OCR数据集由阿里巴巴集团、华中科技大学和华南理工大学联合开发,旨在为评估大型多模态模型在文字识别(OCR)任务中的表现提供一个全面且具有挑战性的基准。该数据集创建于2024年,涵盖了多场景文本阅读、多语言文本阅读、文档解析和关键信息提取四大核心任务,包含39个子集和7058张全标注图像。CC-OCR的推出填补了当前多模态模型在复杂结构和细粒度视觉挑战方面评估的空白,对推动多模态模型在实际应用中的进步具有重要意义。
当前挑战
CC-OCR数据集在构建过程中面临多重挑战。首先,解决领域问题的挑战在于如何全面评估多模态模型在不同场景和任务中的表现,特别是多方向文本和自然噪声等细粒度视觉挑战。其次,构建过程中的挑战包括数据集的多样性和实用性,确保数据来源广泛且具有代表性,同时需要对现有数据进行重新标注以满足多模态模型的评估标准。此外,数据集的标注过程复杂,需确保标注的准确性和一致性,以支持多模态模型的全面评估。
常用场景
经典使用场景
CC-OCR数据集在评估大型多模态模型(LMMs)的识字能力方面具有经典应用场景。该数据集通过四个核心任务——多场景文本阅读、多语言文本阅读、文档解析和关键信息提取,全面评估LMMs在处理复杂结构和细粒度视觉挑战方面的能力。这些任务涵盖了从自然场景到文档的各种文本识别需求,为模型提供了广泛的训练和测试环境。
衍生相关工作
CC-OCR数据集的发布催生了一系列相关研究工作,特别是在多场景文本阅读、多语言文本识别和文档解析等领域。例如,基于CC-OCR的评估结果,研究者们提出了多种改进模型,以提升LMMs在复杂文本环境下的识别精度和鲁棒性。此外,CC-OCR还激发了对文本识别和文档解析任务的深入研究,推动了相关技术的创新和发展。
数据集最近研究
最新研究方向
CC-OCR数据集在多模态大模型(LMMs)的评估中展现了其在多场景文本阅读、多语言文本阅读、文档解析和关键信息提取等任务中的全面性和挑战性。最新的研究方向集中在通过CC-OCR数据集对LMMs进行系统性评估,揭示其在文本定位、多方向文本处理和重复幻觉等方面的优势与不足。研究者们通过对比分析不同LMMs在CC-OCR上的表现,提出了提升模型在复杂视觉挑战和多语言环境下性能的策略,推动了LMMs在实际应用中的进一步发展。
相关研究论文
  • 1
    CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy阿里巴巴集团 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录