pixparse/docvqa-wds
收藏Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pixparse/docvqa-wds
下载链接
链接失效反馈官方服务:
资源简介:
DocVQA数据集是由Mathew等人在2021年引入的一个文档数据集,包含50,000个问题,这些问题基于12,000多个文档图像。该数据集是一个webdataset(.tar分片)版本,内容与https://huggingface.co/datasets/pixparse/docvqa-single-page-questions相同。数据集可用于当前版本的Hugging Face `datasets`或`chug`库。数据集分为训练集、验证集和测试集,分别包含10,194张图像和39,463个问题和答案、1,286张图像和5,349个问题和答案、1,287张图像和5,188个问题。
DocVQA数据集是由Mathew等人在2021年引入的一个文档数据集,包含50,000个问题,这些问题基于12,000多个文档图像。该数据集是一个webdataset(.tar分片)版本,内容与https://huggingface.co/datasets/pixparse/docvqa-single-page-questions相同。数据集可用于当前版本的Hugging Face `datasets`或`chug`库。数据集分为训练集、验证集和测试集,分别包含10,194张图像和39,463个问题和答案、1,286张图像和5,349个问题和答案、1,287张图像和5,188个问题。
提供机构:
pixparse
原始信息汇总
DocVQA 数据集概述
数据集描述
- 联系人:
- 数据集维护者: Minesh Mathew (mailto:minesh.mathew@gmail.com), Dimosthenis Karatzas (mailto:dimos@cvc.uab.es), C. V. Jawahar (mailto:jawahar@iiit.ac.in)
- Hugging Face 联系人: Pablo Montalvo (mailto:pablo@huggingface.co)
数据集总结
- DocVQA 数据集 是一个文档数据集,由 Mathew 等人于 2021 年引入,包含超过 12,000 个文档图像上的 50,000 个问题。
数据分割
训练集
- 图像数量: 10194
- 问题及答案数量: 39463
验证集
- 图像数量: 1286
- 问题及答案数量: 5349
测试集
- 图像数量: 1287
- 问题数量: 5188
许可证信息
- 许可证: MIT
引用信息
bibtex @InProceedings{docvqa_wacv, author = {Mathew, Minesh and Karatzas, Dimosthenis and Jawahar, C.V.}, title = {DocVQA: A Dataset for VQA on Document Images}, booktitle = {WACV}, year = {2021}, pages = {2200-2209} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



