five

pixparse/docvqa-wds

收藏
Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pixparse/docvqa-wds
下载链接
链接失效反馈
官方服务:
资源简介:
DocVQA数据集是由Mathew等人在2021年引入的一个文档数据集,包含50,000个问题,这些问题基于12,000多个文档图像。该数据集是一个webdataset(.tar分片)版本,内容与https://huggingface.co/datasets/pixparse/docvqa-single-page-questions相同。数据集可用于当前版本的Hugging Face `datasets`或`chug`库。数据集分为训练集、验证集和测试集,分别包含10,194张图像和39,463个问题和答案、1,286张图像和5,349个问题和答案、1,287张图像和5,188个问题。

DocVQA数据集是由Mathew等人在2021年引入的一个文档数据集,包含50,000个问题,这些问题基于12,000多个文档图像。该数据集是一个webdataset(.tar分片)版本,内容与https://huggingface.co/datasets/pixparse/docvqa-single-page-questions相同。数据集可用于当前版本的Hugging Face `datasets`或`chug`库。数据集分为训练集、验证集和测试集,分别包含10,194张图像和39,463个问题和答案、1,286张图像和5,349个问题和答案、1,287张图像和5,188个问题。
提供机构:
pixparse
原始信息汇总

DocVQA 数据集概述

数据集描述

数据集总结

  • DocVQA 数据集 是一个文档数据集,由 Mathew 等人于 2021 年引入,包含超过 12,000 个文档图像上的 50,000 个问题。

数据分割

训练集

  • 图像数量: 10194
  • 问题及答案数量: 39463

验证集

  • 图像数量: 1286
  • 问题及答案数量: 5349

测试集

  • 图像数量: 1287
  • 问题数量: 5188

许可证信息

  • 许可证: MIT

引用信息

bibtex @InProceedings{docvqa_wacv, author = {Mathew, Minesh and Karatzas, Dimosthenis and Jawahar, C.V.}, title = {DocVQA: A Dataset for VQA on Document Images}, booktitle = {WACV}, year = {2021}, pages = {2200-2209} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作