five

abdoelsayed/AMuRD

收藏
Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abdoelsayed/AMuRD
下载链接
链接失效反馈
官方服务:
资源简介:
AMuRD数据集是一个多语言的收据数据集,专门用于跨语言的关键信息提取和分类。该数据集包含47,720个样本,每个样本都有详细的注释,包括物品名称、属性(如价格、品牌等),并被分类为44个产品类别。该数据集旨在解决信息提取和物品分类中的关键挑战,并引入了InstructLLaMA方法,该方法在关键信息提取和物品分类任务中表现出色,F1分数为0.76,准确率为0.68。
提供机构:
abdoelsayed
原始信息汇总

AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification

摘要

关键信息提取涉及从扫描的收据中识别和提取文本,以便检索基本内容并将其组织成结构化文档。本文介绍了一个新的多语言收据提取数据集,解决了信息提取和项目分类的关键挑战。该数据集包含47,720个样本,包括项目名称、属性(如价格、品牌等)的标注,以及44个产品类别的分类。我们引入了InstructLLaMA方法,实现了0.76的F1分数和0.68的准确率,用于关键信息提取和项目分类。

示例

示例 输入 类别 品牌 重量 单位数量 单位尺寸 价格 总价 包装 单位
示例1 40.99 20.99 2 chunks sunshine 罐、瓶和包装 sunshine 无重量 2 无单位尺寸 20.99 40.99 盒子 无单位
示例2 برسيل اتوماتيك جل روز 2.6 清洁用品 برسيل 2.6升 1 无单位尺寸 无价格 无总价 包装
示例3 regina Pasta penne 400g 米、面和豆类 regina 400克 1 无单位尺寸 无价格 无总价
示例4 10.00 400g Penne Pasta ElMaleka 米、面和豆类 ElMaleka 400克 1 无单位尺寸 10 10

获取代码

要开始使用代码并利用AMuRD数据集进行研究或项目,可以克隆此仓库: bash git clone https://github.com/yourusername/AMuRD.git

引用

请考虑引用我们的论文:

@misc{abdallah2023amurd, title={AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification}, author={Abdelrahman Abdallah and Mahmoud Abdalla and Mohamed Elkasaby and Yasser Elbendary and Adam Jatowt}, year={2023}, eprint={2309.09800}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

注意:AMuRD数据集仅可用于非商业研究目的。希望使用AMuRD数据库的研究人员,请先填写申请表并通过电子邮件发送给我们(m.abdallah@discoapp.ai, Yelbendary@discoapp.ai, abdoelsayed2016@gmail.com)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作