five

AMuRD

收藏
arXiv2024-03-27 更新2024-06-21 收录
下载链接:
https://github.com/Update-For-Integrated-Business-AI/AMuRD
下载链接
链接失效反馈
官方服务:
资源简介:
AMuRD是一个专为从收据中提取关键信息和分类设计的多语言标注数据集,由University of Innsbruck和DISCO AI共同创建。该数据集包含47,720个样本,涵盖阿拉伯语和英语,旨在解决零售行业数据分析中的关键挑战。每个样本都包含详细的标注,如商品名称、价格、品牌等,并分类为44个不同的产品类别,以支持更高效的数据分析。AMuRD不仅提供了丰富的数据资源,还通过其详细的标注和分类功能,为研究人员提供了深入理解商品和交易细节的机会,适用于多种应用场景,如自动化业务流程、财务分析和库存管理。

AMuRD is a multilingual annotated dataset specifically designed for key information extraction and classification from receipts, co-created by the University of Innsbruck and DISCO AI. This dataset contains 47,720 samples covering Arabic and English, aiming to address critical challenges in retail industry data analysis. Each sample includes detailed annotations such as product names, prices, brands and others, and is classified into 44 distinct product categories to support more efficient data analysis. Not only does AMuRD provide a rich data resource, but it also offers researchers opportunities to gain in-depth insights into product and transaction details through its detailed annotations and classification functions, and is applicable to multiple application scenarios such as automated business processes, financial analysis and inventory management.
提供机构:
University of Innsbruck, Austria 和 DISCO AI, Cairo, Egypt
创建时间:
2023-09-18
搜集汇总
背景与挑战
背景概述
AMuRD是一个用于收据关键信息提取和分类的多语言注释数据集,包含47,720个样本,每个样本具有项目名称、价格、品牌等详细注释,并分为44个产品类别。该数据集旨在支持零售行业的数据分析,通过微调语言模型可实现高准确率的信息提取和分类任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作