vidore/tatdqa_test

Name: vidore/tatdqa_test
Creator: vidore
Published: 2024-11-09 23:39:02
License: 暂无描述

Hugging Face2024-11-09 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/vidore/tatdqa_test

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从TAT-DQA数据集中提取的测试集，专注于需要数值推理的丰富表格和文本内容。数据集的构建基于公开可用的真实世界财务报告，问题和答案由金融领域的专家手动注释。数据集包含1663个图像-查询对，保留了完整的测试集以紧密代表文档检索的使用案例。

This is the test set taken from the TAT-DQA dataset, a large-scale Document VQA dataset that was constructed from publicly available real-world financial reports. It focuses on rich tabular and textual content requiring numerical reasoning. Questions and answers were manually annotated by human experts in finance. The dataset contains 1,663 image-query pairs, and the full test set was kept to closely represent the use case of document retrieval.

提供机构：

vidore

原始信息汇总

数据集概述

数据集信息

特征:
- query: 字符串类型
- image_filename: 字符串类型
- image: 图像类型
- answer: 字符串类型
- answer_type: 字符串类型
- page: 字符串类型
- model: 字符串类型
- prompt: 字符串类型
- source: 字符串类型
分割:
- test: 包含1663个样本，大小为774039186.125字节
下载大小: 136066416字节
数据集大小: 774039186.125字节
配置:
- default: 数据文件路径为data/test-*
许可证: CC BY 4.0
任务类别:
- 视觉问答
- 问答
语言: 英语
标签:
- 文档检索
- 视觉问答
- 问答
规模类别: 1K<n<10K

数据集描述

来源: 来自TAT-DQA数据集的测试集，该数据集是从公开的现实世界财务报告中构建的。
特点: 专注于需要数值推理的丰富表格和文本内容。
标注: 问题和答案由金融领域的专家手动标注。

数据集结构

示例:
- questionId: 字符串类型
- query: 字符串类型
- question_types: 空类型
- image: 图像类型
- docId: 整数类型
- image_filename: 字符串类型
- page: 字符串类型
- answer: 空类型
- data_split: 字符串类型
- source: 字符串类型

引用信息

引用格式: latex @inproceedings{zhu-etal-2021-tat, title = "{TAT}-{QA}: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance", author = "Zhu, Fengbin and Lei, Wenqiang and Huang, Youcheng and Wang, Chao and Zhang, Shuo and Lv, Jiancheng and Feng, Fuli and Chua, Tat-Seng", booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.254", doi = "10.18653/v1/2021.acl-long.254", pages = "3277--3287" }

@inproceedings{zhu2022towards, title={Towards complex document understanding by discrete reasoning}, author={Zhu, Fengbin and Lei, Wenqiang and Feng, Fuli and Wang, Chao and Zhang, Haozhou and Chua, Tat-Seng}, booktitle={Proceedings of the 30th ACM International Conference on Multimedia}, pages={4857--4866}, year={2022} }

搜集汇总

数据集介绍

构建方式

在金融文档理解领域，TAT-DQA测试集源自公开可得的真实世界财务报告，构建过程体现了严谨的专业性。该数据集通过金融专家手工标注，确保了问题与答案的准确性和领域相关性。其核心在于融合了丰富的表格与文本内容，专门针对需要数值推理的复杂场景进行设计。数据集中包含1663个图像-查询对，完整保留了原始测试集的结构，以贴近实际文档检索的应用需求。

特点

该数据集在视觉文档问答任务中展现出独特优势，其特点在于结合了图像形式的财务文档与自然语言查询。每个实例均包含查询语句、对应图像文件名、原始图像数据以及人工标注的答案和答案类型。数据集覆盖了多种问题类型，强调对表格与文本混合内容的深度理解，尤其侧重于金融领域的数值推理能力评估。这种多模态特性为模型提供了接近真实业务场景的挑战。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载测试集部分。加载后，数据集以结构化格式呈现，包含查询、图像、答案等关键字段。研究人员可将其用于评估文档视觉问答模型的性能，特别是在金融文档理解与数值推理任务上。由于数据集仅包含测试集，它适用于模型验证与基准测试，为跨模态推理研究提供了标准化的评估平台。

背景与挑战

背景概述

在金融文档智能分析领域，文档视觉问答（Document VQA）技术致力于从复杂的财务报告中提取并理解信息。TAT-DQA数据集由新加坡国立大学等机构的研究团队于2021年构建，其核心研究问题聚焦于融合表格与文本内容的混合型金融文档的数值推理与问答。该数据集源自真实世界的公开财务报告，通过金融专家的人工标注，为文档理解与推理任务提供了高质量的基准，显著推动了金融自然语言处理与多模态学习的发展。

当前挑战

TAT-DQA数据集旨在解决金融文档中混合表格与文本内容的复杂问答挑战，要求模型具备深度的数值推理与跨模态理解能力。在构建过程中，面临真实财务报告的结构多样性、标注需要高度专业金融知识，以及保持测试集完整性与实际应用场景一致性的难题，这些因素共同构成了数据集开发的核心挑战。

常用场景

经典使用场景

在金融文档智能分析领域，TAT-DQA测试集作为评估文档视觉问答模型性能的基准工具，其经典使用场景集中于对复杂财务报告中的表格与文本混合内容进行深度理解与推理。该数据集通过提供真实世界财务报告图像及人工标注的问题-答案对，使研究者能够系统测试模型在跨模态信息融合、数值计算及逻辑推理等方面的能力，尤其适用于验证模型在金融文档这类结构化与非结构化信息交织环境下的鲁棒性。

解决学术问题

该数据集有效应对了文档视觉问答研究中长期存在的挑战，即如何让模型同时处理文本、表格及视觉布局信息，并执行精确的数值推理。它推动了跨模态理解、离散推理以及领域自适应等前沿方向的发展，为构建能够理解真实世界复杂文档的智能系统提供了关键数据支撑，显著提升了学术社区对混合内容文档语义解析问题的研究深度。

衍生相关工作

围绕TAT-DQA数据集，学术界衍生出一系列经典研究工作。这些工作不仅包括针对其提出的端到端文档VQA模型，还激发了在表格解析、数值推理增强、多模态预训练以及领域特定迁移学习等方面的创新。相关成果持续推动着文档理解、问答系统及金融NLP等子领域的算法进步与基准刷新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集