KVP10k

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/IBM/KVP10k

下载链接

链接失效反馈

官方服务：

资源简介：

KVP10k是一个包含10,000页标注的商业文档关键值对(KVP)提取数据集，具有从值到匹配键的链接矩形和文本标签。数据集用于模型训练和基准测试，支持模型比较和评估。

KVP10k is a dataset comprising 10,000 annotated pages of business documents for key-value pair (KVP) extraction, featuring linked rectangles and text labels from values to their corresponding keys. This dataset is utilized for model training and benchmarking, facilitating model comparison and evaluation.

创建时间：

2024-02-11

原始信息汇总

数据集概述

1. 数据集基本信息

名称: KVP10k
规模: 包含10,000页的标注数据
目的: 用于从商业文档中提取关键值对（KVP）
特点: 包含从值到匹配键的链接矩形和文本标签
数据来源: 从Hugging Face下载，可通过此链接访问

2. 数据集内容

数据格式: 每个页面包含用于KVP提取任务的标注匹配
标注内容:
- 矩形列表: 描述每个矩形的ID、坐标、标签和链接信息
- 元数据: 包括图像URL、页码和图像名称
unkeyed_value类型列表: 包括名称、日期、地址等

3. 数据集结构

目录结构:

dataset ├── test │ ├── gts │ ├── ocr │ ├── images │ ├── annotation ├── train │ ├── gts │ ├── ocr │ ├── images │ ├── annotation
ground_truth格式: 区分三种类型的KVP：unkeyed, unvalued, kvp

4. 数据集准备与使用

下载与准备: 提供download_dataset.py脚本，用于下载PDF、提取图像、运行OCR并创建ground_truth格式
环境设置: 使用conda版本24.5.0，安装必要的库和工具
数据集可视化与统计: 提供工具用于可视化标注和ground_truth，以及获取数据集统计信息

5. 模型训练与评估

训练: 需要A100 GPU，80GB内存
推理: 需要A100 GPU，80GB/40GB内存
基准测试: 使用benchmark.py进行模型评估

6. 数据集使用注意事项

在使用前，请检查数据集的使用权和许可条款

搜集汇总

数据集介绍

构建方式

KVP10k数据集的构建基于从商业文档中提取的10,000页，每页均经过关键值对（KVP）提取任务的标注。标注内容包括链接矩形、文本标签以及从值到其匹配键的关联。数据集的构建过程涉及从PDF文档中提取图像，并通过OCR（光学字符识别）技术对提取的图像进行处理，最终生成包含矩形坐标、标签和链接信息的标注文件。此过程确保了数据集的高质量和实用性，为模型训练和评估提供了坚实的基础。

特点

KVP10k数据集的显著特点在于其大规模的标注数据和精细的标注格式。每页文档不仅包含矩形的坐标信息，还详细标注了文本标签及其与关键值对的关联。此外，数据集提供了多种类型的KVP标注，包括未键值、未值键和标准KVP，这为研究不同类型的文档解析提供了丰富的资源。数据集的结构化格式和详细的元数据信息，使其在模型训练和评估中具有高度的灵活性和实用性。

使用方法

使用KVP10k数据集时，首先需通过提供的脚本下载和准备数据集，包括从PDF文档中提取图像并进行OCR处理。随后，用户可以根据需要设置环境并使用提供的工具进行数据集的可视化和统计分析。数据集的结构化存储方式使得模型训练和评估变得简单高效，用户可以通过调用相应的Python脚本进行训练、推理和基准测试。此外，数据集的详细文档和示例代码为用户提供了全面的使用指南，确保了数据集在不同应用场景中的广泛适用性。

背景与挑战

背景概述

KVP10k数据集是由IBM研究人员创建的一个包含10,000页标注的键值对（KVP）提取数据集，主要用于从商业文档中提取关键信息。该数据集通过链接矩形和文本标签，提供了详细的标注信息，旨在为模型比较和评估提供基础。KVP10k的创建不仅推动了文档处理领域的研究进展，还为后续的模型训练和基准测试提供了丰富的资源。该数据集的发布标志着在商业文档自动化处理领域的一次重要突破，为研究人员提供了一个标准化的测试平台。

当前挑战

KVP10k数据集在构建过程中面临多项挑战。首先，从PDF文档中提取图像并进行OCR处理，确保标注信息的准确性是一个复杂的过程。其次，数据集的标注需要高度精确，以确保模型训练的有效性。此外，数据集的多样性和覆盖范围也是一个挑战，确保不同类型的商业文档都能被充分代表。最后，数据集的规模和复杂性要求高效的存储和处理技术，以支持大规模的模型训练和评估。

常用场景

经典使用场景

在商业文档处理领域，KVP10k数据集的经典使用场景主要集中在关键值对（Key-Value Pair, KVP）的自动提取。该数据集通过提供10,000页经过标注的商业文档，支持模型训练和评估，尤其适用于开发和优化能够从复杂文档结构中准确提取关键信息的算法。其标注的详细性和多样性使得研究人员和开发者能够构建和验证高效的KVP提取模型，从而在实际应用中显著提升文档处理的自动化水平。

衍生相关工作

基于KVP10k数据集，研究者们开发了多种先进的KVP提取模型和算法，推动了文档处理技术的进步。例如，一些研究工作利用该数据集进行深度学习模型的训练，显著提高了KVP提取的准确率。此外，KVP10k还激发了关于文档结构解析和信息提取的新方法研究，如结合自然语言处理和计算机视觉的多模态学习。这些衍生工作不仅丰富了学术研究的内容，也为实际应用提供了更多创新解决方案。

数据集最近研究