ReceiptQA
收藏ReceiptQA 数据集概述
许可
- MIT
任务类别
- 问题回答 (Question Answering)
语言
- 英语 (English)
标签
- 金融 (Finance)
数据规模
- 100K < n < 1M
数据集简介
ReceiptQA 是一个大规模数据集,专为支持收据理解的问题回答 (QA) 任务研究而设计。该数据集提供了来自真实世界收据图像的广泛问题,涵盖了文本提取、布局理解和数值推理等多样化挑战。ReceiptQA 为评估和改进基于收据的 QA 任务模型提供了一个基准。
数据集概览
ReceiptQA 包含 3,500 张收据图像,配对 171,000 个问题-答案对,采用两种互补方法构建:
- LLM-Generated 子集: 通过 GPT-4o 生成的 70,000 个 QA 对,由人工标注者验证以确保准确性和相关性。
- Human-Created 子集: 手工创建的 101,000 个 QA 对,包括可回答和不可回答的问题,用于多样化评估。
关键特征
- 覆盖五个领域:零售、餐饮服务、超市、时尚和医疗。
- 包括简单和复杂的问题。
- 为收据特定的 QA 任务提供了一个全面的基准。
数据集统计
| 领域 | 收据数量 | 人工 QA 对 | LLM QA 对 |
|---|---|---|---|
| 零售 | 800 | 23,200 | 16,000 |
| 餐饮服务 | 700 | 20,300 | 14,000 |
| 超市 | 700 | 20,300 | 14,000 |
| 时尚 | 650 | 18,850 | 13,000 |
| 咖啡店 | 650 | 18,850 | 13,000 |
| 总计 | 3,500 | 101,935 | 70,000 |
数据示例
json { "question": "What is the total amount for this receipt?", "answer": "559.99 L.E" }, { "question": "What is the name of item 1?", "answer": "Pullover PU-SOK1175" }, { "question": "What is the transaction number?", "answer": "29786" }, { "question": "How many items were purchased?", "answer": "2" }
使用要求
bash
安装推理所需库
pip install torch==1.10.0 pip install transformers==4.5.0 pip install datasets==2.3.0 pip install Pillow
下载链接
评估指标
ReceiptQA 提供以下指标用于评估 QA 模型:
- 精确匹配 (EM): 测量预测答案是否与真实答案完全匹配。
- F1 分数: 评估预测答案与真实答案的重叠程度。
- 精确度: 测量预测的准确性。
- 召回率: 测量检索相关答案的能力。
- 答案包含: 检查真实答案是否包含在预测响应中。
对比模型
ReceiptQA 已经用于评估以下最新模型:
- GPT-4
- Llama3.2 (11B)
- Gemni 2.0
- Phi 3.5 Vision
- InternVL2 (4B/8B)
- LLaVA 7B
引用
如果您在研究中使用 ReceiptQA,请引用我们的论文:
Will be publish soon !!
联系方式
如有问题或反馈,请联系:
- Mahmoud Abdalla: mahmoudelsayed@chungbuk.ac.kr
- GitHub Issues: 提交问题




