Sujet-Finance-QA-Vision-100k
收藏Hugging Face2024-07-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/sujet-ai/Sujet-Finance-QA-Vision-100k
下载链接
链接失效反馈官方服务:
资源简介:
Sujet-Finance-QA-Vision-100k数据集是一个综合性的数据集,包含超过100,000个从超过9,800份财务文档图像中提取的问题-答案对。该数据集旨在支持财务文档分析和视觉问答领域的研究和开发。它包含9,801张独特的财务文档图像和107,050个问题-答案对,语言为英语。数据集分为训练集(9,212张图像,100,629个QA对)和验证集(589张图像,6,421个QA对)。该数据集是通过使用GPT-4注释并使用Llama 3 70B进行细化,以生成多样化和高质量的QA对。它包括`doc_id`、`content`、`image`和`qa_pairs`等字段。该数据集存在一些限制和偏见,用户在使用时应考虑伦理问题,并根据具体用例验证信息。
创建时间:
2024-07-01
原始信息汇总
SujetAIs Financial QA Vision Dataset 概述
数据集描述
Sujet-Finance-QA-Vision-100k 是一个综合数据集,包含超过 100,000 个问题-答案对,源自超过 9,800 份金融文档图像。该数据集旨在支持金融文档分析和视觉问答领域的研究和开发。
关键特性:
- 图像数量:9,801 张独特的金融文档图像
- 问题-答案对:107,050 对
- 语言:英语
- 文档类型:多样化的金融文档类型
数据集摘要
- 训练集:9,212 张图像,100,629 对 QA 对
- 验证集:589 张图像,6,421 对 QA 对
- 总计:9,801 张图像,107,050 对 QA 对
数据字段
doc_id:文档的唯一标识符content:文档内容的丰富注释,用于创建 QA 对image:金融文档图像qa_pairs:包含问题-答案对的 JSON 字符串
限制与偏差
- 问题-答案对基于 GPT-4 注释生成,并使用 Llama 3 70B 进行细化。尽管此过程产生高质量结果,但可能存在答案与图像信息不完全对应的情况。
- 通过手动检查,发现此类差异很少且不影响训练/验证过程。用户应意识到这种无监督和自动化数据集生成的局限性。
- 数据集专注于英语金融文档,可能限制其适用于其他语言或金融系统。
伦理考虑
- 数据集中的金融信息不应未经适当验证用于现实世界的金融决策。
- 数据集可能反映原始金融文档或注释过程中存在的偏差。
许可证
该数据集在 Apache 2.0 许可证下发布。
搜集汇总
数据集介绍

构建方式
Sujet-Finance-QA-Vision-100k数据集的构建基于9,801张金融文档图像,通过Meta-Llama-3-70B模型生成多样化的问答对。该过程首先利用GPT-4对每张图像进行详细注释,随后通过Llama 3模型将这些注释分解为更小、更易处理的问答对,涵盖事实性、分析性、比较性和假设性问题。这一方法确保了数据集的深度和多样性,同时适应了小型视觉语言模型的微调需求。
特点
该数据集包含107,050个问答对,覆盖9,801张独特的金融文档图像,所有内容均为英文。数据集中的金融文档类型多样,涵盖了广泛的金融信息。训练集包含9,212张图像和100,629个问答对,验证集包含589张图像和6,421个问答对。每个样本包括文档ID、内容注释、图像以及JSON格式的问答对,适合用于金融文档分析和视觉问答研究。
使用方法
用户可以通过Hugging Face的`datasets`库加载该数据集,并访问训练集和验证集。每个样本包含文档ID、内容预览、图像以及问答对。用户可以使用Python代码加载数据集,并通过Matplotlib展示图像,同时打印出相关的问答对。该数据集适用于金融文档的视觉问答任务,支持研究人员和开发者进行模型训练和验证。
背景与挑战
背景概述
Sujet-Finance-QA-Vision-100k数据集由Sujet AI团队于2024年发布,旨在推动金融文档分析与视觉问答领域的研究与发展。该数据集包含超过100,000个问答对,源自9,801张金融文档图像,涵盖了多种金融文档类型。其核心研究问题在于如何通过视觉问答技术,从复杂的金融文档中提取关键信息,并生成高质量的问答对。该数据集的发布为金融领域的自然语言处理与计算机视觉任务提供了重要的资源支持,尤其对视觉语言模型(VLM)的微调与应用具有深远影响。
当前挑战
Sujet-Finance-QA-Vision-100k数据集在构建与应用中面临多重挑战。首先,金融文档的复杂性与多样性使得生成准确且多样化的问答对变得尤为困难,尤其是在处理大量上下文信息时,模型需要平衡信息的深度与简洁性。其次,数据集的构建依赖于GPT-4和Llama 3 70B等大型语言模型生成问答对,尽管经过优化,但仍可能存在问答对与图像信息不完全匹配的情况,这对模型的训练与验证提出了更高的要求。此外,数据集仅涵盖英文金融文档,限制了其在多语言环境下的适用性,且可能引入原始文档或生成过程中的潜在偏差。
常用场景
经典使用场景
Sujet-Finance-QA-Vision-100k数据集在金融文档分析与视觉问答领域具有广泛的应用。该数据集通过提供超过10万条问题-答案对,支持研究人员开发能够从金融文档图像中提取信息的视觉问答模型。经典使用场景包括训练和评估视觉语言模型(VLM),如Llava和PaliGemma,以提升模型在金融文档理解任务中的表现。
解决学术问题
该数据集解决了金融文档分析中的多个学术研究问题,特别是在视觉问答(VQA)领域。通过提供多样化的金融文档图像和对应的问题-答案对,研究人员能够探索如何从复杂的文档中提取关键信息,并生成准确的回答。这不仅推动了视觉语言模型的发展,还为金融领域的自动化文档处理提供了新的研究方向。
衍生相关工作
基于Sujet-Finance-QA-Vision-100k数据集,许多经典工作得以衍生。例如,研究人员利用该数据集开发了针对金融文档的视觉问答模型,如Llava和PaliGemma的改进版本。此外,该数据集还促进了金融领域多模态学习的研究,推动了视觉与文本信息融合的技术进步。
以上内容由遇见数据集搜集并总结生成



