Openpdf-MultiReceipt-1K
收藏魔搭社区2025-11-27 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/prithivMLmods/Openpdf-MultiReceipt-1K
下载链接
链接失效反馈官方服务:
资源简介:
# Openpdf-MultiReceipt-1K
**Openpdf-MultiReceipt-1K** is a dataset consisting of over 1,000 receipt documents in **PDF format**. This dataset is designed for use in image-to-text and document understanding tasks, particularly Optical Character Recognition (OCR), receipt parsing, and layout analysis.
## Notes
* No text annotations or metadata are provided — only the raw PDFs.
* Ideal for tasks requiring raw document inputs like PDF-to-Text pipelines.
## Dataset Summary
* **Size:** 1,249 receipts
* **Format:** PDF only (no extracted text)
* **Split:**
* `train`: 1.25k files
* **Languages:** Primarily English and German
* **License:** Apache 2.0
## How to Use
You can load the dataset using the `datasets` library:
```python
from datasets import load_dataset
dataset = load_dataset("prithivMLmods/Openpdf-MultiReceipt-1K")
```
Each entry in the dataset contains:
```json
{
"file": <PDF file object>
}
```
## Use Cases
* OCR model training
* Document layout detection
* Multi-lingual receipt understanding
* Data extraction from scanned documents
# Openpdf-MultiReceipt-1K
**Openpdf-MultiReceipt-1K** 是一款包含1249份收据文档的数据集,原始格式均为便携式文档格式(Portable Document Format, PDF)。本数据集专为图像转文本与文档理解任务打造,尤其适用于光学字符识别(Optical Character Recognition, OCR)、收据解析及版面分析等场景。
## 备注
* 未附带文本标注或元数据,仅提供原始PDF文件。
* 非常适合需要原始文档输入的任务,例如PDF转文本处理流水线。
## 数据集概览
* **规模**:1249份收据
* **格式**:仅支持PDF格式(不包含已提取的文本内容)
* **数据划分**:
* 训练集(train):1250份文件
* **语言**:主要包含英语与德语
* **许可证**:Apache 2.0
## 使用方法
可通过`datasets`库加载该数据集:
python
from datasets import load_dataset
dataset = load_dataset("prithivMLmods/Openpdf-MultiReceipt-1K")
数据集中的每个条目包含以下字段:
json
{
"file": <PDF文件对象>
}
## 应用场景
* OCR模型训练
* 文档版面检测
* 多语言收据理解
* 扫描文档的数据提取
提供机构:
maas
创建时间:
2025-05-26



