abdoelsayed/AMuRD
收藏AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification
摘要
关键信息提取涉及从扫描的收据中识别和提取文本,以便检索基本内容并将其组织成结构化文档。本文介绍了一个新的多语言收据提取数据集,解决了信息提取和项目分类的关键挑战。该数据集包含47,720个样本,包括项目名称、属性(如价格、品牌等)的标注,以及44个产品类别的分类。我们引入了InstructLLaMA方法,实现了0.76的F1分数和0.68的准确率,用于关键信息提取和项目分类。
示例
| 示例 | 输入 | 类别 | 品牌 | 重量 | 单位数量 | 单位尺寸 | 价格 | 总价 | 包装 | 单位 |
|---|---|---|---|---|---|---|---|---|---|---|
| 示例1 | 40.99 20.99 2 chunks sunshine |
罐、瓶和包装 | sunshine | 无重量 | 2 | 无单位尺寸 | 20.99 | 40.99 | 盒子 | 无单位 |
| 示例2 | برسيل اتوماتيك جل روز 2.6 |
清洁用品 | برسيل | 2.6升 | 1 | 无单位尺寸 | 无价格 | 无总价 | 包装 | 升 |
| 示例3 | regina Pasta penne 400g |
米、面和豆类 | regina | 400克 | 1 | 无单位尺寸 | 无价格 | 无总价 | 袋 | 克 |
| 示例4 | 10.00 400g Penne Pasta ElMaleka |
米、面和豆类 | ElMaleka | 400克 | 1 | 无单位尺寸 | 10 | 10 | 袋 | 克 |
获取代码
要开始使用代码并利用AMuRD数据集进行研究或项目,可以克隆此仓库: bash git clone https://github.com/yourusername/AMuRD.git
引用
请考虑引用我们的论文:
@misc{abdallah2023amurd, title={AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification}, author={Abdelrahman Abdallah and Mahmoud Abdalla and Mohamed Elkasaby and Yasser Elbendary and Adam Jatowt}, year={2023}, eprint={2309.09800}, archivePrefix={arXiv}, primaryClass={cs.CL} }
许可证
注意:AMuRD数据集仅可用于非商业研究目的。希望使用AMuRD数据库的研究人员,请先填写申请表并通过电子邮件发送给我们(m.abdallah@discoapp.ai, Yelbendary@discoapp.ai, abdoelsayed2016@gmail.com)。



