table-vqa

Hugging Face2024-07-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/cmarkea/table-vqa

下载链接

链接失效反馈

官方服务：

资源简介：

table-vqa数据集整合了来自AFTDB数据集的表格图像及其对应的LaTeX源代码。每张图像平均关联十个问题和答案对，其中一半为英语，另一半为法语。这些问题和答案由Gemini 1.5 Pro、GPT-4o和Claude 3.5 sonnet等模型生成，非常适合用于图像与文本配对和多语言问答的多模态任务。数据集分为训练和测试部分，详细统计了每种语言和模型使用的图像数量、问答对和单词数量。数据集包含字段如唯一标识符、图像、LaTeX源代码、用于生成问答对的模型、论文标识符、LaTeX新命令以及双语问答对。

The Table-VQA Dataset integrates table images and their corresponding LaTeX source code from the AFTDB Dataset. Each image is associated with an average of ten question-answer pairs, half of which are in English and the other half in French. These pairs are generated by models including Gemini 1.5 Pro, GPT-4o, and Claude 3.5 Sonnet, making the dataset highly suitable for multimodal tasks such as image-text alignment and multilingual question answering. The dataset is split into training and test subsets, with detailed statistics provided for the number of images, question-answer pairs, and word counts per language and model. It includes fields such as unique identifier, image, LaTeX source code, model used for question-answer pair generation, paper identifier, LaTeX custom commands, and bilingual question-answer pairs.

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集信息

特征

id: 字符串类型，唯一标识符。
paper_id: 字符串类型，arXiv文章的唯一标识符。
latex: 字符串类型，表格的LaTeX源代码。
newcommands: 字符串序列，文章中使用的LaTeX新命令。
image: 图像类型，表格的图像。
model: 字符串类型，用于生成问答对的模型。
qa: 结构体类型，包含英语和法语的问答对。
- en: 列表类型，包含英语的问答对。
  - answer: 字符串类型，答案。
  - question: 字符串类型，问题。
- fr: 列表类型，包含法语的问答对。
  - answer: 字符串类型，答案。
  - question: 字符串类型，问题。

数据分割

train: 训练集，包含16415个样本，大小为1260008177.905字节。
test: 测试集，包含395个样本，大小为30186055字节。

数据集大小

下载大小: 1210970093字节。
数据集大小: 1290194232.905字节。

配置

default: 默认配置。
- train: 路径为data/train-*。
- test: 路径为data/test-*。

许可证

apache-2.0

任务类别

text-generation
text-to-image
image-to-text
table-question-answering
visual-question-answering

语言

fr: 法语
en: 英语

大小类别

10K<n<100K

数据样本

json { "id": "786cc06c71854b088ca098fdf2cf20fa", "latex": "\begin{tabular}{|r|r|r|r|} \hline $\sqrt{s}$ (GeV) & $\phi$ (rad) & $\theta_{C}$ & $\theta_{AMH}$ \ \hline 250 & $0.444 \pm 0.070$ & $0.0497 \pm 0.0051$ & $0.36 \pm 0.10$ \ \hline \end{tabular}", "newcommands": [ "\newcommand{\toprule}{\hline}", "\newcommand{\midrule}{\hline}", "\newcommand{\bottomrule}{\hline}" ], "image": "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=735x70 at 0x7F2420F56550>", "model": "claude3.5-sonnet", "qa": { "en": [ { "answer": "250 GeV", "question": "What is the center-of-mass energy in GeV for the data presented in the table?" }, { "answer": "0.444 ± 0.070 rad", "question": "What is the value of φ (phi) in radians according to the table?" }, { "answer": "4 significant figures", "question": "How many significant figures are reported for the θC (theta C) value?" }, { "answer": "θAMH (theta AMH) with a relative uncertainty of about 28%", "question": "Which parameter has the largest relative uncertainty in the table?" }, { "answer": "0.4097 (0.0497 + 0.36)", "question": "What is the sum of the central values of θC and θAMH?" } ], "fr": [ { "answer": "GeV (Giga-électronvolt)", "question": "Quelle est lunité de mesure utilisée pour √s dans le tableau?" }, { "answer": "0,36 ± 0,10", "question": "Quelle est la valeur de θAMH (theta AMH) indiquée dans le tableau?" }, { "answer": "4 paramètres", "question": "Combien de paramètres sont présentés dans ce tableau?" }, { "answer": "± 0,070 rad", "question": "Quelle est la précision de la mesure de φ (phi) en radians?" }, { "answer": "θC (theta C) avec une incertitude de ± 0,0051", "question": "Quel paramètre a la plus petite incertitude absolue dans le tableau?" } ] } }

统计描述

语言分布

Split	Language	# images	# Q/A pairs	# Words
train	en	16,415	83,686	1,499,367
train	fr	16,415	83,640	1,697,110
train	Total	16,415	167,326	3,196,477
test	en	395	2,015	35,706
test	fr	395	2,015	40,475
test	Total	395	4,030	76,181

模型使用分布

Split	Model	# images	# en Q/A pairs	# fr Q/A pairs	# total Q/A pairs
train	Claude	5539	27695	27695	55,390
train	Gemini	5444	27384	27285	54,669
train	GPT4o	5432	28607	28660	57,267
test	Claude	107	535	535	83,686
test	Gemini	139	695	695	83,640
test	GPT4o	149	785	785	24,452

字段描述

id: 唯一标识符。
image: 表格的Pillow图像。
latex: 表格的LaTeX源代码。
model: 用于生成问答对的模型（claude3.5-sonnet, gemini-1.5-pro 或 gpt-4o）。
paper_id: 文章的唯一arXiv标识符。
newcommands: 文章中使用的LaTeX新命令列表。
qa: 包含英语和法语问答对的字典。

搜集汇总

数据集介绍

构建方式

table-vqa数据集的构建基于AFTdb（Arxiv Figure Table Database）中的表格图像，结合了LaTeX源代码与对应的图像数据。每个表格图像平均关联十个问题与答案，其中一半为英语，另一半为法语。这些问题与答案通过Gemini 1.5 Pro和Claude 3.5 sonnet模型生成，确保了数据集在图像-文本配对和多语言问答任务中的适用性。

特点

table-vqa数据集具有多模态和多语言的特点，涵盖了表格图像、LaTeX源代码以及双语问答对。数据集中的问答对由先进的生成模型生成，确保了问题的多样性和答案的准确性。此外，数据集还提供了丰富的元数据，如论文ID、LaTeX命令等，为研究表格理解与多模态任务提供了全面的支持。

使用方法

使用table-vqa数据集时，首先需安装`datasets`库，随后通过`load_dataset`函数加载数据集。数据集支持直接访问表格图像、LaTeX源代码以及双语问答对。用户可通过Python代码轻松获取数据样本，并利用其多模态特性进行图像-文本配对、表格理解或多语言问答任务的研究与开发。

背景与挑战

背景概述

table-vqa数据集由Tom Agonnoude和Cyrile Delestre于2024年创建，旨在推动多模态任务中的表格视觉问答研究。该数据集整合了来自AFTdb（Arxiv Figure Table Database）的表格图像及其对应的LaTeX源代码，每张图像平均关联十个问答对，涵盖英语和法语两种语言。问答对通过Gemini 1.5 Pro和Claude 3.5 Sonnet生成，使其适用于图像-文本配对和多语言问答任务。该数据集不仅为表格理解提供了丰富的多模态数据，还为跨语言和多模型生成的研究提供了重要支持。

当前挑战

table-vqa数据集面临的挑战主要体现在两个方面。首先，表格视觉问答任务本身具有复杂性，表格数据的结构化特性要求模型能够同时理解图像内容和文本语义，这对多模态模型的融合能力提出了较高要求。其次，数据集的构建过程中，如何确保问答对的准确性和多样性是一大难题。尽管使用了先进的生成模型，但表格数据的多样性和复杂性可能导致问答对的质量不一致，尤其是在跨语言场景下，语义对齐和翻译准确性仍需进一步优化。此外，表格图像的清晰度和LaTeX代码的解析也是构建过程中需要克服的技术障碍。

常用场景

经典使用场景

table-vqa数据集在自然语言处理与计算机视觉的交叉领域中展现了其独特的价值。该数据集通过结合表格图像与对应的LaTeX源代码，提供了丰富的多模态数据，特别适用于视觉问答（VQA）和表格问答（Table QA）任务。研究人员可以利用该数据集训练模型，使其能够理解表格中的结构化信息，并回答与表格内容相关的复杂问题。

实际应用

在实际应用中，table-vqa数据集可广泛应用于学术文献的自动化处理、科学数据的智能分析以及多语言信息检索系统。例如，在科研领域，该数据集可以帮助研究人员快速从大量表格中提取关键信息，减少人工查阅的时间成本。同时，其多语言特性也为全球化企业的数据分析和报告生成提供了支持。

衍生相关工作

table-vqa数据集的发布推动了多模态表格理解领域的研究进展。基于该数据集，许多经典工作得以展开，例如开发更高效的表格问答模型、探索多语言表格数据的处理方法以及研究视觉与文本模态的融合技术。这些工作不仅提升了表格问答的准确性，还为其他多模态任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成