five

Openpdf-MultiReceipt-1K

收藏
魔搭社区2025-11-27 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/prithivMLmods/Openpdf-MultiReceipt-1K
下载链接
链接失效反馈
官方服务:
资源简介:
# Openpdf-MultiReceipt-1K **Openpdf-MultiReceipt-1K** is a dataset consisting of over 1,000 receipt documents in **PDF format**. This dataset is designed for use in image-to-text and document understanding tasks, particularly Optical Character Recognition (OCR), receipt parsing, and layout analysis. ## Notes * No text annotations or metadata are provided — only the raw PDFs. * Ideal for tasks requiring raw document inputs like PDF-to-Text pipelines. ## Dataset Summary * **Size:** 1,249 receipts * **Format:** PDF only (no extracted text) * **Split:** * `train`: 1.25k files * **Languages:** Primarily English and German * **License:** Apache 2.0 ## How to Use You can load the dataset using the `datasets` library: ```python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Openpdf-MultiReceipt-1K") ``` Each entry in the dataset contains: ```json { "file": <PDF file object> } ``` ## Use Cases * OCR model training * Document layout detection * Multi-lingual receipt understanding * Data extraction from scanned documents

# Openpdf-MultiReceipt-1K **Openpdf-MultiReceipt-1K** 是一款包含1249份收据文档的数据集,原始格式均为便携式文档格式(Portable Document Format, PDF)。本数据集专为图像转文本与文档理解任务打造,尤其适用于光学字符识别(Optical Character Recognition, OCR)、收据解析及版面分析等场景。 ## 备注 * 未附带文本标注或元数据,仅提供原始PDF文件。 * 非常适合需要原始文档输入的任务,例如PDF转文本处理流水线。 ## 数据集概览 * **规模**:1249份收据 * **格式**:仅支持PDF格式(不包含已提取的文本内容) * **数据划分**: * 训练集(train):1250份文件 * **语言**:主要包含英语与德语 * **许可证**:Apache 2.0 ## 使用方法 可通过`datasets`库加载该数据集: python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Openpdf-MultiReceipt-1K") 数据集中的每个条目包含以下字段: json { "file": <PDF文件对象> } ## 应用场景 * OCR模型训练 * 文档版面检测 * 多语言收据理解 * 扫描文档的数据提取
提供机构:
maas
创建时间:
2025-05-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作