cmarkea/doc-vqa

Name: cmarkea/doc-vqa
Creator: cmarkea
Published: 2024-08-26 14:16:40
License: 暂无描述

Hugging Face2024-08-26 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/cmarkea/doc-vqa

下载链接

链接失效反馈

官方服务：

资源简介：

doc-vqa数据集整合了来自HuggingFaceM4的Infographic_vqa数据集和cmarkea的AFTDB（Arxiv Figure Table Database）数据集的图像。该数据集由图像和相应的文本对组成，每张图像平均链接到五个问题和答案，这些问题和答案以英语和法语提供。这些问题和答案是使用Gemini 1.5 Pro生成的，因此该数据集非常适合涉及图像-文本配对和多语言问答的多模态任务。

提供机构：

cmarkea

原始信息汇总

数据集概述

数据集信息

特征字段:
- id: 字符串类型
- paper_id: 字符串类型
- source: 字符串类型
- image: 图像类型
- qa: 结构体类型，包含以下字段：
  - en: 列表类型，包含以下字段：
    - answer: 字符串类型
    - question: 字符串类型
  - fr: 列表类型，包含以下字段：
    - answer: 字符串类型
    - question: 字符串类型
数据分割:
- train: 包含9688个样本，大小为2435754786.096字节
- test: 包含2421个样本，大小为611923621.391字节
数据集大小:
- 下载大小: 2185509114字节
- 数据集总大小: 3047678407.4870005字节
配置:
- default配置包含以下数据文件:
  - train: data/train-*
  - test: data/test-*
许可证: Apache 2.0
任务类别: 视觉问答 (visual-question-answering)
语言: 英语 (en), 法语 (fr)
标签: AFTdb, infoVQA

数据集描述

该数据集整合了来自Infographic_vqa数据集和AFTDB数据集的图像，每张图像平均关联五个问题和答案，支持英语和法语两种语言。

数据样本示例

json { "id": "31311a78fb5a4daa93e85d31620fad17", "paper_id": "2303.12112v3", "source": "aftdb_figure", "image": [PIL.Image], "qa": { "en": [ { "answer": "A man riding an orange snowboard jumping off a snow ramp.", "question": "What is the real image of the generated image A person on a snowboard in the air?" }, { "answer": "A pizza with basil leaves.", "question": "What kind of pizza is in the real image?" }, { "answer": "A brown grizzly bear.", "question": "What animal is in the real images?" }, { "answer": "The cat is on some green grass.", "question": "Where is the black and white cat in the real image?" }, { "answer": "Two cups on saucers.", "question": "What is on top of the wooden table in the real image?" } ], "fr": [ { "answer": "Un homme sur un snowboard orange sautant dune rampe de neige.", "question": "Quelle est limage réelle de limage générée Une personne sur un snowboard dans les airs?" }, { "answer": "Une pizza avec des feuilles de basilic.", "question": "Quel type de pizza est dans limage réelle?" }, { "answer": "Un grizzli brun.", "question": "Quel animal est dans les vraies images?" }, { "answer": "Le chat est sur de lherbe verte.", "question": "Où est le chat noir et blanc sur la vraie image?" }, { "answer": "Deux tasses sur des soucoupes.", "question": "Quest-ce quil y a sur la table en bois sur la vraie image?" } ] } }

数据集统计信息

数据集	图像数量	问答对数量
infoVQA	2,096	21,074
aftdb_figure	10,016	101,218
doc-vqa(Train)	9,688	97,842
doc-vqa(Test)	2,421	24,452

引用

bibtex @online{Dedoc-vqa, AUTHOR = {Loïc SOKOUDJOU SONAG}, URL = {https://huggingface.co/datasets/cmarkea/doc-vqa}, YEAR = {2024}, KEYWORDS = {NLP ; Multimodal} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集