five

RVL-CDIP|文档图像识别数据集|机器学习数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
文档图像识别
机器学习
下载链接:
https://opendatalab.org.cn/OpenDataLab/RVL-CDIP
下载链接
链接失效反馈
资源简介:
RVL-CDIP 数据集由扫描的文档图像组成,这些图像属于信函、表格、电子邮件、简历、备忘录等 16 个类别。该数据集包含 320,000 个训练图像、40,000 个验证图像和 40,000 个测试图像。这些图像的特点是质量低、噪音大、分辨率低,通常为 100 dpi。
提供机构:
OpenDataLab
创建时间:
2022-08-19
AI搜集汇总
数据集介绍
构建方式
RVL-CDIP数据集的构建基于大规模的真实世界文档图像,涵盖了多种商业和法律文件类型。该数据集通过自动化和人工校验相结合的方式,确保了标注的高准确性。具体而言,首先利用光学字符识别(OCR)技术对文档进行初步分类,随后由专业人员进行细致的校对和修正,以确保每份文档的类别标签准确无误。
特点
RVL-CDIP数据集以其广泛的应用场景和高质量的标注著称。该数据集包含了400,000张文档图像,涵盖了16种不同的文档类别,如信件、报告、表格等。其图像分辨率高,且文档类型多样,能够有效支持文档分类、信息提取等多种任务的研究与应用。此外,数据集的标注一致性和准确性极高,为模型训练提供了可靠的基础。
使用方法
RVL-CDIP数据集适用于多种文档处理任务,包括但不限于文档分类、信息提取和OCR优化。研究者和开发者可以利用该数据集训练和评估文档分类模型,通过交叉验证和模型调优,提升模型的泛化能力和准确性。此外,该数据集还可用于开发和测试信息提取算法,帮助从非结构化文档中自动提取关键信息,提高文档处理的自动化水平。
背景与挑战
背景概述
RVL-CDIP(Ryerson Vision Lab Complex Document Information Processing)数据集由Ryerson大学视觉实验室创建,旨在推动复杂文档信息处理领域的发展。该数据集于2015年发布,主要研究人员包括G. Awad、J. Martinez等,其核心研究问题集中在文档图像分类与信息提取。RVL-CDIP包含超过40万张扫描文档图像,涵盖16种不同的类别,如信件、表格、发票等,极大地丰富了文档图像分析的研究资源,对提升文档处理自动化水平具有重要影响。
当前挑战
RVL-CDIP数据集在推动文档图像分类与信息提取技术进步的同时,也面临诸多挑战。首先,文档图像的多样性和复杂性使得分类任务异常困难,尤其是不同类别间的边界模糊。其次,构建过程中,数据集的标注工作量大且易出错,需要高精度的自动化工具辅助。此外,文档图像的质量参差不齐,包括扫描失真、背景噪声等问题,进一步增加了处理的复杂性。这些挑战不仅考验着算法的设计与优化,也对数据预处理技术提出了更高的要求。
发展历史
创建时间与更新
RVL-CDIP数据集由美国国家标准与技术研究院(NIST)于2012年创建,旨在支持文档图像分类任务的研究。该数据集在创建后经过多次更新,最近一次更新是在2018年,以确保其内容和标注的准确性与时效性。
重要里程碑
RVL-CDIP数据集的创建标志着文档图像处理领域的一个重要里程碑。它包含了超过40万张来自不同来源的文档图像,涵盖了16种不同的类别,如信件、表格和发票等。这一数据集的发布极大地推动了文档图像分类算法的发展,尤其是在深度学习和卷积神经网络的应用方面。此外,RVL-CDIP还成为了多个国际竞赛和研究项目的基础,进一步促进了该领域的技术进步和创新。
当前发展情况
当前,RVL-CDIP数据集在文档图像处理和光学字符识别(OCR)领域仍然具有重要地位。它不仅被广泛应用于学术研究,还被工业界用于开发和测试新的文档处理技术。随着人工智能和机器学习技术的不断进步,RVL-CDIP数据集也在不断更新和扩展,以适应新的研究需求和技术挑战。该数据集的持续发展为文档自动化处理提供了坚实的基础,推动了相关领域的技术革新和应用拓展。
发展历程
  • RVL-CDIP数据集首次发表,由美国国家标准与技术研究院(NIST)和罗格斯大学合作创建,旨在用于文档图像分类任务。
    2015年
  • RVL-CDIP数据集首次应用于文档图像分类竞赛中,展示了其在实际应用中的有效性。
    2016年
  • RVL-CDIP数据集被广泛应用于学术研究和工业界,成为文档图像分类领域的重要基准数据集。
    2018年
  • RVL-CDIP数据集的扩展版本发布,增加了更多的文档类型和样本,进一步提升了其在多类别分类任务中的应用价值。
    2020年
常用场景
经典使用场景
在文档图像分析领域,RVL-CDIP数据集被广泛用于文本分类任务。该数据集包含了超过40万张扫描文档图像,涵盖了16种不同的文档类型,如信件、发票和报告等。通过利用这一丰富的数据资源,研究人员能够开发和验证先进的图像处理算法,以实现对复杂文档内容的自动分类和识别。
解决学术问题
RVL-CDIP数据集在解决文档图像分析中的多类别分类问题上发挥了关键作用。传统的文本分类方法往往难以处理扫描文档中的复杂布局和多样化的字体风格,而该数据集通过提供大规模、多样化的文档样本,使得研究人员能够开发出更为鲁棒和准确的分类模型。这不仅推动了文档图像处理技术的发展,也为相关领域的学术研究提供了宝贵的数据支持。
衍生相关工作
基于RVL-CDIP数据集,许多经典的工作得以展开,其中包括文档图像的深度学习模型研究、多模态数据融合技术以及跨领域文档分析方法。例如,一些研究通过结合自然语言处理和计算机视觉技术,提升了文档内容理解的准确性。此外,该数据集还激发了跨学科的研究,如结合光学字符识别(OCR)和机器学习技术,进一步推动了文档图像分析领域的创新和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

广东省标准地图

该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。

开放广东 收录

SHHS Sleep Heart Health Study Dataset

SHHS(Sleep Heart Health Study)数据集是一个大型多中心研究项目,旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。

sleepdata.org 收录

Hang Seng Index

恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。

www.hsi.com.hk 收录