rvl-cdip-filtered-bboxesv3

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/sabaridsnfuji/rvl-cdip-filtered-bboxesv3

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含图像及其相关信息的图像数据集，其中包括图像路径、base64编码、标签、类别名称、尺寸、格式和通过easyocr库得到的OCR识别结果。数据集分为验证集和测试集。

This is an image dataset containing images and their associated information, including image paths, base64 encodings, labels, category names, dimensions, file formats, and OCR recognition results obtained via the EasyOCR library. The dataset is divided into a validation set and a test set.

创建时间：

2025-09-17

原始信息汇总

数据集概述

基本信息

数据集名称：rvl-cdip-filtered-bboxesv3
下载大小：2,630,471,851 字节
数据集大小：2,883,514,375 字节

数据特征

图像路径：字符串类型
图像Base64编码：字符串类型
标签：整型
类别名称：字符串类型
图像宽度：整型
图像高度：整型
图像格式：字符串类型
EasyOCR识别词汇：字符串列表
EasyOCR边界框：整型列表的列表
EasyOCR置信度：浮点型列表
EasyOCR词汇数量：整型
EasyOCR平均置信度：浮点型
是否经过EasyOCR处理：布尔型
OCR是否成功：布尔型

数据划分

验证集
- 样本数量：9,923
- 数据大小：1,433,572,240 字节
测试集
- 样本数量：10,023
- 数据大小：1,449,942,135 字节

配置文件

默认配置
- 验证集文件路径：data/validation-*
- 测试集文件路径：data/test-*

搜集汇总

数据集介绍

构建方式

在文档图像分析领域，rvl-cdip-filtered-bboxesv3数据集基于原始RVL-CDIP文档图像集合构建，通过EasyOCR引擎系统性地处理每幅图像，提取文本区域坐标与置信度信息，并整合图像元数据与类别标注，形成多模态结构化数据。

使用方法

研究者可借助图像路径与Base64编码访问原始图像，结合OCR输出与类别标签训练文档分类模型，或利用边界框数据开发目标检测算法，测试集与验证集的划分支持模型性能的可靠评估。

背景与挑战

背景概述

文档图像分析领域自二十一世纪初便致力于通过计算技术解析复杂文档结构与内容，rvl-cdip-filtered-bboxesv3数据集作为RVL-CDIP数据集的扩展版本，由学术机构在深度学习浪潮中构建，聚焦于文档图像分类与目标检测任务。该数据集通过集成EasyOCR工具提取的文本区域边界框与置信度信息，显著增强了文档结构理解的粒度，为智能文档处理系统提供了关键数据支撑，推动了自然语言处理与计算机视觉交叉领域的发展。

当前挑战

该数据集核心挑战在于解决文档图像中多模态信息融合问题，例如文本区域与视觉元素的精确对齐及噪声抑制，同时需应对低质量扫描文档的OCR识别误差。构建过程中面临标注一致性难题，包括边界框的尺度归一化与文本置信度的可靠评估，以及大规模图像数据预处理中的存储与计算效率优化。

常用场景

经典使用场景

在文档图像分析领域，rvl-cdip-filtered-bboxesv3数据集通过提供带有精确边界框标注的文档图像，为文档布局分析和结构识别任务建立了新的基准。研究者利用其丰富的OCR输出信息（包括单词位置、置信度等），能够训练深度学习模型准确识别文档中的文本区域与非文本元素，进而实现自动化文档理解。

解决学术问题

该数据集有效解决了文档图像处理中文本检测与识别精度不足的学术难题。通过提供高质量的位置标注与置信度指标，研究者能够开发更鲁棒的OCR后处理算法，改善复杂版式文档的解析效果，显著提升了多类别文档的结构化信息提取准确率，对数字化档案管理研究具有重要推进作用。

实际应用

在实际应用中，该数据集支撑了智能文档处理系统的开发，广泛应用于金融票据自动识别、法律文书数字化归档和企业文档管理系统。其精确的边界框标注为实际场景中的表格提取、关键信息捕捉和文档分类提供了可靠的数据基础，显著提升了行业文档处理的自动化水平与准确性。

数据集最近研究