rvl-cdip-filtered-bboxes

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/sabaridsnfuji/rvl-cdip-filtered-bboxes

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含图片及其相关信息的图像数据集，每个样本包含图片路径、图片base64编码、标签、类别名称、图片尺寸、格式、文件大小等信息。数据集分为训练集、验证集和测试集，每个集合包含4000个样本。此外，数据集还提供了通过easyocr工具进行OCR识别的结果，包括识别出的文字、文字的边界框、置信度等信息。

创建时间：

2025-09-14

原始信息汇总

数据集概述

基本信息

数据集名称: rvl-cdip-filtered-bboxes
来源平台: Hugging Face
下载大小: 1,592,018,660 字节
数据集大小: 1,738,646,558 字节

数据特征

数据集包含以下字段：

image_path: 图像路径（字符串类型）
image_base64: Base64编码的图像数据（字符串类型）
label: 标签（整数类型）
class_name: 类别名称（字符串类型）
width: 图像宽度（整数类型）
height: 图像高度（整数类型）
format: 图像格式（字符串类型）
file_size_bytes: 文件大小（字节，整数类型）
split: 数据划分（字符串类型）
easyocr_words: OCR识别单词序列（字符串序列）
easyocr_bboxes: OCR识别边界框序列（整数序列的序列）
easyocr_confidences: OCR识别置信度序列（浮点数序列）
easyocr_num_words: OCR识别单词数量（整数类型）
easyocr_avg_confidence: OCR平均置信度（浮点数类型）
processed_with_easyocr: 是否经过EasyOCR处理（布尔类型）
ocr_success: OCR是否成功（布尔类型）

数据划分

数据集分为三个部分：

训练集（train）: 4,000个样本，大小576,249,828字节
验证集（validation）: 4,000个样本，大小578,916,480字节
测试集（test）: 4,000个样本，大小583,480,250字节

配置信息

默认配置: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

搜集汇总

数据集介绍

构建方式

在文档图像分析领域，rvl-cdip-filtered-bboxes数据集基于原始RVL-CDIP文档图像集合构建，通过EasyOCR引擎对每张图像进行光学字符识别处理，提取文本区域边界框及对应置信度。该数据集系统保留了图像元数据与OCR输出结果的关联映射，并依据标准比例划分为训练集、验证集和测试集，确保了文档结构分析与文本检测任务的数据完整性。

特点

该数据集的核心特征在于融合了多模态文档信息，不仅包含原始图像路径、尺寸及标签数据，还集成了OCR提取的文本边界坐标、词汇内容及其置信度评分。其结构化设计支持对文档版面分析与文字定位的联合研究，而标注的类别名称与统计指标（如平均置信度与词汇数量）为模型性能评估提供了多维度的量化依据。

使用方法

研究者可通过加载标准化的数据分划（train/validation/test）直接接入深度学习框架，利用图像基数据与边界框标注训练文档检测或OCR增强模型。OCR成功标识与置信度指标可用于筛选高质量样本，而序列化文本坐标与词汇信息支持端到端的文档理解任务，如信息提取或智能表单分析。

背景与挑战

背景概述

文档图像分析领域自二十一世纪初便致力于通过计算技术解析复杂文档结构与内容。rvl-cdip-filtered-bboxes数据集作为RVL-CDIP数据集的扩展版本，由学术界与工业界合作构建，聚焦于文档图像中文本区域的精确检测与识别。该数据集通过集成EasyOCR工具生成文本边界框及置信度标注，为文档布局分析、光学字符识别及多模态学习提供了关键数据支撑，显著推动了智能文档处理系统的研究进程。

当前挑战

该数据集核心挑战在于解决文档图像中文本区域的异构性检测问题，包括不同字体、布局及背景干扰下的文本定位精度。构建过程中需克服大规模图像数据标注的一致性难题，尤其是边界框坐标的精确标定与OCR置信度的有效过滤。此外，跨文档类型的泛化能力与噪声数据的清洗亦成为数据质量保障的关键瓶颈。

常用场景

经典使用场景

在文档图像分析领域，rvl-cdip-filtered-bboxes数据集通过提供带有精细OCR标注的文档图像，成为文档分类与结构识别研究的基准资源。其经典使用场景包括训练深度学习模型进行文档类型自动归类，模型通过解析图像中的文本区域及其空间分布，学习区分法律文书、商业信函、学术论文等不同类别文档的特征模式。

衍生相关工作

基于该数据集衍生的经典工作包括融合视觉-文本特征的文档分类网络DocFormer，以及针对噪声OCR输出的自适应校正算法。这些研究不仅优化了文档结构识别精度，还催生了LayoutLM等跨模态预训练模型，推动了整个文档智能领域向端到端处理范式演进。

数据集最近研究