AnranWuRichPo/DCQA
收藏DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding
1. 数据集概述
该数据集是一个文档级图表问答数据集,包含总共50,010个文档图像和699,051个问题。数据集按照8:1:1的比例划分为训练集、验证集和测试集。详细的数据集信息可以在论文中找到。
2. 数据集文件结构
├── DCQA Dataset
│ ├── document_images # 文档图像和标注文件夹
│ │ ├── train
│ │ │ ├── JPEGImages # 文档图像文件夹
│ │ │ │ ├── E_2023_04_05_22_47_52_6_BestValueMultiLine.jpg
│ │ │ │ ├── E_2023_04_05_22_47_52_6_BubbleScatter.jpg
│ │ │ │ ├── ...
│ │ │ ├── Annotations # 文档标注文件夹
│ │ │ │ ├── E_2023_04_05_22_47_52_6_BestValueMultiLine.xml
│ │ │ │ ├── E_2023_04_05_22_47_52_6_BubbleScatter.xml
│ │ │ │ ├── ...
│ │ ├── val
│ │ │ │ ...
│ │ │ │ ...
│ │ ├── test
│ │ │ │ ...
│ │ │ │ ...
│ └── chart_infos # 图表信息文件夹
│ │ ├── train
│ │ │ ├── E_2023_04_05_22_47_52_6
│ │ │ │ ├── Label.json
│ │ │ ├── E_2023_04_05_22_51_28_1
│ │ │ │ ├── Label.json
│ │ │ ├── E_2023_04_05_23_05_19_3
│ │ │ │ │ ...
│ │ │ ├── ...
│ │ ├── val
│ │ │ │ ...
│ │ │ │ ...
│ │ ├── test
│ │ │ │ ...
│ │ │ │ ...
│ └── qa_files # 问题和答案信息文件夹
│ │ ├── train_qa.json # 训练集问题/答案
│ │ ├── val_qa.json # 验证集问题/答案
│ │ ├── test_qa.json # 测试集问题/答案
在DCQA Dataset文件夹中,有三个子文件夹,分别是document_images、chart_infos和qa_files。
1.1 document_images
"document_images"文件夹用于存储文档图像和相应的文档标注信息。该文件夹下有三个子文件夹,用于数据集划分:train、val和test。
在每个数据集划分子文件夹(train/val/test)中,有两个额外的文件夹,分别是JPEGImages和Annotations。
1.1.1 JPEGImages
"JPEGImages"文件夹用于存储文档图像,每个文档图像包含一个图表。
文档图像为JPG格式。
文档图像的命名基于图表ID,由以下元素组成:
- 生成机器ID_生成时间·年_生成时间·月_生成时间·日_生成时间·小时_生成时间·分钟_生成时间·秒_随机数(0-9范围)_图表类型
例如,"E_2023_04_05_22_47_52_6_BestValueMultiLine"。
1.1.2 Annotations
"Annotations"文件夹用于存储文档信息。
文档信息为XML格式。详细的文档信息内容请参考研究论文中的附录E。
1.2 chart_infos
"chart_infos"文件夹用于存储每个图表的详细信息。它包含数据集划分的子文件夹,分别是train、val和test。
在每个数据集划分子文件夹(train/val/test)中,每个文件夹名称对应图表ID的前缀部分(不包括图表类型)。这部分包括:
- 生成机器ID_生成时间·年_生成时间·月_生成时间·日_生成时间·小时_生成时间·分钟_生成时间·秒_随机数(0-9范围)
例如,"E_2023_04_05_22_47_52_6"。
每个文件夹包含一个Label.json文件,存储所有图表ID以相应文件夹名称为前缀的图表信息。JSON文件中的数据结构为列表,每个元素是一个字典,存储特定图表的信息。详细的图表信息请参考研究论文中的附录C。
1.3 qa_files
"qa_files"文件夹用于存储问题-答案对的详细信息。它包含三个文件:train_qa.json、val_qa.json和test_qa.json,分别存储训练集、验证集和测试集的问题-答案对信息。
每个问题-答案对文件是一个JSON文件,信息以字典形式存储。键表示问题ID,对应的值是包含问题-答案对所有信息的字典。具体的问题-答案对信息请参考研究论文中的附录D.2。
问题ID由以下元素组成:
- 图表ID_问题模板ID
例如,"G_2023_04_18_09_38_32_6_SingleSmoothLine_119"。



