five

AnranWuRichPo/DCQA

收藏
Hugging Face2024-05-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AnranWuRichPo/DCQA
下载链接
链接失效反馈
官方服务:
资源简介:
DCQA数据集是一个文档级别的图表问答数据集,包含50,010个文档图像和699,051个问题。数据集被划分为训练集、验证集和测试集,比例为8:1:1。数据集文件结构包括三个主要文件夹:document_images(存储文档图像和注释)、chart_infos(存储每个图表的详细信息)和qa_files(存储问题和答案的详细信息)。每个文件夹下都有训练、验证和测试集的子文件夹,分别存储相应的数据。

DCQA数据集是一个文档级别的图表问答数据集,包含50,010个文档图像和699,051个问题。数据集被划分为训练集、验证集和测试集,比例为8:1:1。数据集文件结构包括三个主要文件夹:document_images(存储文档图像和注释)、chart_infos(存储每个图表的详细信息)和qa_files(存储问题和答案的详细信息)。每个文件夹下都有训练、验证和测试集的子文件夹,分别存储相应的数据。
提供机构:
AnranWuRichPo
原始信息汇总

DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding

1. 数据集概述

该数据集是一个文档级图表问答数据集,包含总共50,010个文档图像和699,051个问题。数据集按照8:1:1的比例划分为训练集、验证集和测试集。详细的数据集信息可以在论文中找到。

2. 数据集文件结构

├── DCQA Dataset │ ├── document_images # 文档图像和标注文件夹 │ │ ├── train
│ │ │ ├── JPEGImages # 文档图像文件夹 │ │ │ │ ├── E_2023_04_05_22_47_52_6_BestValueMultiLine.jpg │ │ │ │ ├── E_2023_04_05_22_47_52_6_BubbleScatter.jpg │ │ │ │ ├── ... │ │ │ ├── Annotations # 文档标注文件夹 │ │ │ │ ├── E_2023_04_05_22_47_52_6_BestValueMultiLine.xml │ │ │ │ ├── E_2023_04_05_22_47_52_6_BubbleScatter.xml │ │ │ │ ├── ... │ │ ├── val │ │ │ │ ... │ │ │ │ ... │ │ ├── test │ │ │ │ ... │ │ │ │ ... │ └── chart_infos # 图表信息文件夹 │ │ ├── train │ │ │ ├── E_2023_04_05_22_47_52_6 │ │ │ │ ├── Label.json │ │ │ ├── E_2023_04_05_22_51_28_1 │ │ │ │ ├── Label.json │ │ │ ├── E_2023_04_05_23_05_19_3 │ │ │ │ │ ... │ │ │ ├── ... │ │ ├── val │ │ │ │ ... │ │ │ │ ... │ │ ├── test │ │ │ │ ... │ │ │ │ ... │ └── qa_files # 问题和答案信息文件夹 │ │ ├── train_qa.json # 训练集问题/答案 │ │ ├── val_qa.json # 验证集问题/答案 │ │ ├── test_qa.json # 测试集问题/答案

在DCQA Dataset文件夹中,有三个子文件夹,分别是document_imageschart_infosqa_files

1.1 document_images

"document_images"文件夹用于存储文档图像和相应的文档标注信息。该文件夹下有三个子文件夹,用于数据集划分:trainvaltest

在每个数据集划分子文件夹(train/val/test)中,有两个额外的文件夹,分别是JPEGImagesAnnotations

1.1.1 JPEGImages

"JPEGImages"文件夹用于存储文档图像,每个文档图像包含一个图表。

文档图像为JPG格式。

文档图像的命名基于图表ID,由以下元素组成:

  • 生成机器ID_生成时间·年_生成时间·月_生成时间·日_生成时间·小时_生成时间·分钟_生成时间·秒_随机数(0-9范围)_图表类型

例如,"E_2023_04_05_22_47_52_6_BestValueMultiLine"。

1.1.2 Annotations

"Annotations"文件夹用于存储文档信息。

文档信息为XML格式。详细的文档信息内容请参考研究论文中的附录E。

1.2 chart_infos

"chart_infos"文件夹用于存储每个图表的详细信息。它包含数据集划分的子文件夹,分别是train、val和test。

在每个数据集划分子文件夹(train/val/test)中,每个文件夹名称对应图表ID的前缀部分(不包括图表类型)。这部分包括:

  • 生成机器ID_生成时间·年_生成时间·月_生成时间·日_生成时间·小时_生成时间·分钟_生成时间·秒_随机数(0-9范围)

例如,"E_2023_04_05_22_47_52_6"。

每个文件夹包含一个Label.json文件,存储所有图表ID以相应文件夹名称为前缀的图表信息。JSON文件中的数据结构为列表,每个元素是一个字典,存储特定图表的信息。详细的图表信息请参考研究论文中的附录C。

1.3 qa_files

"qa_files"文件夹用于存储问题-答案对的详细信息。它包含三个文件:train_qa.json、val_qa.json和test_qa.json,分别存储训练集、验证集和测试集的问题-答案对信息。

每个问题-答案对文件是一个JSON文件,信息以字典形式存储。键表示问题ID,对应的值是包含问题-答案对所有信息的字典。具体的问题-答案对信息请参考研究论文中的附录D.2。

问题ID由以下元素组成:

  • 图表ID_问题模板ID

例如,"G_2023_04_18_09_38_32_6_SingleSmoothLine_119"。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作