abdoelsayed/AMuRD

Name: abdoelsayed/AMuRD
Creator: abdoelsayed
Published: 2023-09-22 00:19:55
License: 暂无描述

Hugging Face2023-09-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/abdoelsayed/AMuRD

下载链接

链接失效反馈

官方服务：

资源简介：

AMuRD数据集是一个多语言的收据数据集，专门用于跨语言的关键信息提取和分类。该数据集包含47,720个样本，每个样本都有详细的注释，包括物品名称、属性（如价格、品牌等），并被分类为44个产品类别。该数据集旨在解决信息提取和物品分类中的关键挑战，并引入了InstructLLaMA方法，该方法在关键信息提取和物品分类任务中表现出色，F1分数为0.76，准确率为0.68。

提供机构：

abdoelsayed

原始信息汇总

AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification

摘要

关键信息提取涉及从扫描的收据中识别和提取文本，以便检索基本内容并将其组织成结构化文档。本文介绍了一个新的多语言收据提取数据集，解决了信息提取和项目分类的关键挑战。该数据集包含47,720个样本，包括项目名称、属性（如价格、品牌等）的标注，以及44个产品类别的分类。我们引入了InstructLLaMA方法，实现了0.76的F1分数和0.68的准确率，用于关键信息提取和项目分类。

示例

示例	输入	类别	品牌	重量	单位数量	单位尺寸	价格	总价	包装	单位
示例1	`40.99 20.99 2 chunks sunshine`	罐、瓶和包装	sunshine	无重量	2	无单位尺寸	20.99	40.99	盒子	无单位
示例2	`برسيل اتوماتيك جل روز 2.6`	清洁用品	برسيل	2.6升	1	无单位尺寸	无价格	无总价	包装	升
示例3	`regina Pasta penne 400g`	米、面和豆类	regina	400克	1	无单位尺寸	无价格	无总价	袋	克
示例4	`10.00 400g Penne Pasta ElMaleka`	米、面和豆类	ElMaleka	400克	1	无单位尺寸	10	10	袋	克

获取代码

要开始使用代码并利用AMuRD数据集进行研究或项目，可以克隆此仓库： bash git clone https://github.com/yourusername/AMuRD.git

引用

请考虑引用我们的论文：

@misc{abdallah2023amurd, title={AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification}, author={Abdelrahman Abdallah and Mahmoud Abdalla and Mohamed Elkasaby and Yasser Elbendary and Adam Jatowt}, year={2023}, eprint={2309.09800}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

注意：AMuRD数据集仅可用于非商业研究目的。希望使用AMuRD数据库的研究人员，请先填写申请表并通过电子邮件发送给我们（m.abdallah@discoapp.ai, Yelbendary@discoapp.ai, abdoelsayed2016@gmail.com）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集