Openpdf-MultiReceipt-1K

Name: Openpdf-MultiReceipt-1K
Creator: maas
Published: 2025-11-27 16:35:05
License: 暂无描述

魔搭社区2025-11-27 更新2025-05-31 收录

下载链接：

https://modelscope.cn/datasets/prithivMLmods/Openpdf-MultiReceipt-1K

下载链接

链接失效反馈

官方服务：

资源简介：

# Openpdf-MultiReceipt-1K **Openpdf-MultiReceipt-1K** is a dataset consisting of over 1,000 receipt documents in **PDF format**. This dataset is designed for use in image-to-text and document understanding tasks, particularly Optical Character Recognition (OCR), receipt parsing, and layout analysis. ## Notes * No text annotations or metadata are provided — only the raw PDFs. * Ideal for tasks requiring raw document inputs like PDF-to-Text pipelines. ## Dataset Summary * **Size:** 1,249 receipts * **Format:** PDF only (no extracted text) * **Split:** * `train`: 1.25k files * **Languages:** Primarily English and German * **License:** Apache 2.0 ## How to Use You can load the dataset using the `datasets` library: ```python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Openpdf-MultiReceipt-1K") ``` Each entry in the dataset contains: ```json { "file": <PDF file object> } ``` ## Use Cases * OCR model training * Document layout detection * Multi-lingual receipt understanding * Data extraction from scanned documents

# Openpdf-MultiReceipt-1K **Openpdf-MultiReceipt-1K** 是一款包含1249份收据文档的数据集，原始格式均为便携式文档格式（Portable Document Format, PDF）。本数据集专为图像转文本与文档理解任务打造，尤其适用于光学字符识别（Optical Character Recognition, OCR）、收据解析及版面分析等场景。 ## 备注 * 未附带文本标注或元数据，仅提供原始PDF文件。 * 非常适合需要原始文档输入的任务，例如PDF转文本处理流水线。 ## 数据集概览 * **规模**：1249份收据 * **格式**：仅支持PDF格式（不包含已提取的文本内容） * **数据划分**： * 训练集（train）：1250份文件 * **语言**：主要包含英语与德语 * **许可证**：Apache 2.0 ## 使用方法可通过`datasets`库加载该数据集： python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Openpdf-MultiReceipt-1K") 数据集中的每个条目包含以下字段： json { "file": <PDF文件对象> } ## 应用场景 * OCR模型训练 * 文档版面检测 * 多语言收据理解 * 扫描文档的数据提取

提供机构：

maas

创建时间：

2025-05-26

5,000+

优质数据集

54 个

任务类型

进入经典数据集