sujet-ai/Sujet-Finance-Vision-10k

Name: sujet-ai/Sujet-Finance-Vision-10k
Creator: sujet-ai
Published: 2024-05-12 19:58:33
License: 暂无描述

Hugging Face2024-05-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sujet-ai/Sujet-Finance-Vision-10k

下载链接

链接失效反馈

官方服务：

资源简介：

Sujet Finance Vision 10k数据集是一个包含9819张财务文档图像及其相关文本注释的综合数据集，专门用于训练和评估视觉语言模型（VLMs）在识别和描述各种财务文档方面的能力。图像经过初步处理、过滤、手动验证、旋转处理、注释生成和后过滤等步骤，以确保数据质量。数据集涵盖了发票、预算表等多种财务文档，展示了不同的结构、内容、字体和清晰度，以确保模型能够很好地泛化到实际应用中的各种财务文档。

Sujet Finance Vision 10k Dataset is a comprehensive dataset consisting of 9,819 financial document images and their associated textual annotations, specifically designed for training and evaluating Visual Language Models (VLMs) on their ability to recognize and describe diverse financial documents. All images undergo a series of standardized processing workflows including preliminary processing, filtering, manual verification, rotation correction, annotation generation and post-filtering to ensure high data quality. The dataset covers a wide range of financial document types such as invoices and budget sheets, featuring diverse structures, content layouts, fonts and image clarity levels, which enables models to generalize effectively across various real-world financial documents.

提供机构：

sujet-ai

原始信息汇总

数据集概述

名称: Sujet Finance Vision 10k Dataset

描述: 该数据集是一个包含金融文档图像及其相关文本注释的综合集合，专为训练和评估视觉语言模型（VLMs）在识别和描述各种类型金融文档中的应用而设计。

数据集特征

doc_id: 字符串类型，文档ID。
content: 字符串类型，包含由GPT-4 Vision生成的注释，包括文档类型、关键细节和见解。
document_type: 字符串类型，文档类型。
key_details: 字符串类型，文档的关键细节。
insights: 字符串类型，文档的见解和观察。
encoded_image: 字符串类型，图像的编码形式。

数据集结构

训练集: 包含9819个样本，总大小为1126755079字节，下载大小为1050019708字节。

数据集构建过程

初始处理: 对所有图像进行视觉质量增强。
过滤: 使用Tesseract OCR进行图像质量分析和分类。
手动验证: 对自动过滤后的图像进行人工验证。
处理旋转图像: 检测并手动旋转需要调整角度的图像。
注释生成: 使用GPT-4 Vision为通过过滤和验证的图像生成注释。
后过滤: 移除无法生成有效注释的图像。
数据结构化: 将注释内容分割为独立的列，便于访问和使用。

使用指南

使用Python代码从Hugging Face Hub加载数据集，并将其转换为Pandas DataFrame进行进一步处理和分析。

许可和免责声明

许可: 数据集根据Apache 2.0许可证发布。
免责声明: 数据集可能包含不准确的注释，用户需自行承担使用风险。

搜集汇总

数据集介绍

背景与挑战

背景概述

Sujet-Finance-Vision-10k是一个包含9819张金融文档图像及其文本注释的数据集，专门用于视觉语言模型的训练和评估。数据集经过严格的质量控制流程，每张图像都配有通过GPT-4 Vision生成的结构化注释，涵盖文档类型、关键细节和观察见解等信息。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集