Matrix Dataset

github2024-12-23 更新2025-01-14 收录

下载链接：

https://github.com/bwllaming/matrix-paper

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包括与全球最大物流公司之一Kuehne+Nagel合作准备的匿名通用商业语言（UBL）发票文档。数据已匿名化以保护敏感信息，同时保留文档结构。数据集包含XML格式的UBL发票文档，以及一个包含任务注释的`ground_truth.json`文件。任务是从结构化商业文档中提取运输参考号。

This dataset includes anonymized Universal Business Language (UBL) invoice documents prepared in collaboration with Kuehne+Nagel, one of the world's largest logistics companies. The data has been anonymized to protect sensitive information while preserving the document structure. The dataset contains UBL invoice documents in XML format, along with a `ground_truth.json` file that includes task annotations. The task is to extract shipping reference numbers from structured business documents.

创建时间：

2024-12-23

原始信息汇总

数据集概述

数据集名称

Memory-Augmented Agent Training for Business Document Understanding

数据集简介

该数据集与论文《Memory-Augmented Agent Training for Business Document Understanding》相关，旨在支持大型语言模型（LLM）代理在业务文档理解任务中的迭代学习和适应。数据集包含匿名的通用业务语言（UBL）发票文档，用于提取运输参考号的任务。

数据集特点

格式：XML文件，包含UBL发票文档，以及一个单独的ground_truth.json文件，包含任务注释。
任务：从结构化业务文档中提取运输参考号。
匿名化：所有敏感标识符和结构化数据已被替换为假名或随机值。

数据集结构

data/ ├── ground_truth.json # 包含任务注释 ├── [UUID].xml # UBL发票文档

数据集贡献

Matrix框架：一种新颖的范式，允许LLM代理通过内存优化迭代改进推理和任务性能。
开放数据集：首个公开的匿名化数据集，用于业务文档理解的基准测试。
性能提升：在运输参考号提取任务上，相比现有的LLM提示和代理系统，展示了30-35%的性能提升。

实验结果

Chain-of-Thought Prompting：18.03% 成功率
Reflexion：27.28% 成功率
Matrix（提出方法）：55.82% 成功率

效率提升

30.3%的改进：相比单一LLM提示方法。
减少延迟和减少API调用：使其在企业用例中更具成本效益。
改进长文档处理：可处理长达10,000个标记的文档。

许可证

该数据集采用MIT许可证。详细信息请参阅LICENSE文件。

引用

如果使用该数据集或框架，请引用以下论文： bibtext @misc{liu2024memoryaugmentedagenttrainingbusiness, title={Memory-Augmented Agent Training for Business Document Understanding}, author={Jiale Liu and Yifan Zeng and Malte Højmark-Bertelsen and Marie Normann Gadeberg and Huazheng Wang and Qingyun Wu}, year={2024}, eprint={2412.15274}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.15274}, }

联系方式

如有问题或疑问，请联系：

Malte Højmark-Bertelsen: malte@beyondwork.ai

搜集汇总

数据集介绍

构建方式

Matrix数据集的构建依托于与全球领先的物流公司Kuehne+Nagel的合作，采用了匿名化的通用商业语言（UBL）发票文档。这些文档经过精心处理，保留了文档结构的同时，移除了所有敏感信息，确保了数据的隐私性和安全性。数据集以XML文件形式存储，并附带一个包含任务注释的`ground_truth.json`文件，为研究提供了坚实的基础。

特点

Matrix数据集的特点在于其专注于商业文档理解任务，特别是从结构化商业文档中提取运输参考号。数据集中的所有敏感标识符和结构化数据均被替换为伪名或随机值，确保了数据的匿名性。此外，数据集的组织结构清晰，便于研究人员快速定位和使用所需信息。

使用方法

Matrix数据集的使用方法相对直观。研究人员可以通过解析XML文件获取UBL发票文档，同时利用`ground_truth.json`文件中的注释进行任务验证和模型训练。该数据集特别适用于测试和评估基于大语言模型（LLM）的代理系统在商业文档理解任务中的性能，尤其是在运输参考号提取方面的表现。

背景与挑战

背景概述

Matrix Dataset是由Jiale Liu、Yifan Zeng、Malte Højmark-Bertelsen、Marie Normann Gadeberg、Huazheng Wang和Qingyun Wu等研究人员于2024年提出的，旨在解决商业文档理解领域的特定任务，如从发票中提取运输参考号。该数据集是与全球最大的物流公司之一Kuehne+Nagel合作创建的，包含了匿名的通用商业语言（UBL）发票文档。Matrix框架通过记忆增强的代理训练，使大型语言模型（LLM）能够在迭代中学习和适应特定任务，显著提升了任务性能。该数据集的发布为商业文档理解领域的基准测试提供了首个公开的匿名数据集，推动了该领域的研究进展。

当前挑战

Matrix Dataset在构建和应用过程中面临多重挑战。首先，商业文档通常包含大量敏感信息，如何在保持文档结构的同时进行有效的匿名化处理是一个关键问题。其次，从结构化商业文档中提取特定信息（如运输参考号）需要模型具备高度的推理能力和上下文理解能力，这对现有的大型语言模型提出了较高的要求。此外，处理长文档（如长达10,000个标记的文档）时，如何减少延迟和API调用次数以提升效率，也是实际应用中需要解决的难题。这些挑战不仅影响了数据集的构建过程，也对模型的性能优化提出了更高的要求。

常用场景

经典使用场景

Matrix Dataset 主要用于商业文档理解领域，特别是针对物流和供应链管理中的发票处理任务。该数据集通过提供匿名的通用商业语言（UBL）发票文档，支持研究人员和开发者训练和评估基于大语言模型（LLM）的代理系统，以提取运输参考号等关键信息。其经典使用场景包括企业文档自动化处理、物流信息提取以及商业文档的结构化分析。

实际应用

在实际应用中，Matrix Dataset 被广泛应用于物流和供应链管理领域，帮助企业自动化处理大量发票文档，减少人工干预和错误率。例如，物流公司可以利用该数据集训练智能代理系统，快速提取运输参考号，优化运输计划和成本管理。此外，该数据集还可用于开发企业级文档处理工具，提升文档处理速度和准确性，降低运营成本。

衍生相关工作

基于 Matrix Dataset，研究者们开发了一系列相关经典工作，如基于记忆增强的代理训练框架（Matrix Framework），该框架通过迭代学习和记忆优化显著提升了文档理解任务的性能。此外，该数据集还推动了商业文档理解领域的研究进展，催生了多篇高水平论文和开源工具，为后续研究提供了重要的数据和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集