pixparse/docvqa-wds

Name: pixparse/docvqa-wds
Creator: pixparse
Published: 2024-03-29 00:47:44
License: 暂无描述

Hugging Face2024-03-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/pixparse/docvqa-wds

下载链接

链接失效反馈

官方服务：

资源简介：

DocVQA数据集是由Mathew等人在2021年引入的一个文档数据集，包含50,000个问题，这些问题基于12,000多个文档图像。该数据集是一个webdataset（.tar分片）版本，内容与https://huggingface.co/datasets/pixparse/docvqa-single-page-questions相同。数据集可用于当前版本的Hugging Face `datasets`或`chug`库。数据集分为训练集、验证集和测试集，分别包含10,194张图像和39,463个问题和答案、1,286张图像和5,349个问题和答案、1,287张图像和5,188个问题。

提供机构：

pixparse

原始信息汇总

DocVQA 数据集概述

数据集描述

联系人:
- 数据集维护者: Minesh Mathew (mailto:minesh.mathew@gmail.com), Dimosthenis Karatzas (mailto:dimos@cvc.uab.es), C. V. Jawahar (mailto:jawahar@iiit.ac.in)
- Hugging Face 联系人: Pablo Montalvo (mailto:pablo@huggingface.co)

数据集总结

DocVQA 数据集 是一个文档数据集，由 Mathew 等人于 2021 年引入，包含超过 12,000 个文档图像上的 50,000 个问题。

数据分割

训练集

图像数量: 10194
问题及答案数量: 39463

验证集

图像数量: 1286
问题及答案数量: 5349

测试集

图像数量: 1287
问题数量: 5188

许可证信息

许可证: MIT

引用信息

bibtex @InProceedings{docvqa_wacv, author = {Mathew, Minesh and Karatzas, Dimosthenis and Jawahar, C.V.}, title = {DocVQA: A Dataset for VQA on Document Images}, booktitle = {WACV}, year = {2021}, pages = {2200-2209} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集