yujiaw2/capstoneMQA
收藏Hugging Face2023-11-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yujiaw2/capstoneMQA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为CMU MCDS顶点项目多模态问答设计的。它包括训练和测试两部分,训练数据来自五个不同的数据集,测试数据来自六个不同的数据集。训练数据包括两个版本:一个包含49009个样本,另一个包含10000个样本。测试数据也包括两个版本:一个包含41082个样本,另一个包含5000个样本。数据集中的每个样本都包含图像路径、问题、答案等信息,用于多模态问答模型的训练和测试。
This dataset is designed for multimodal question answering (QA) in the CMU MCDS capstone project. It consists of training and test splits. The training data is sourced from five distinct datasets, while the test data originates from six different datasets. The training data has two versions: one with 49,009 samples and the other with 10,000 samples. The test data also has two versions: one with 41,082 samples and the other with 5,000 samples. Each sample in the dataset contains information such as image paths, questions, and answers, and is intended for training and testing multimodal QA models.
提供机构:
yujiaw2
原始信息汇总
数据集概述
该数据集用于CMU MCDS顶点项目“多模态问答”。
训练集
- router_train.csv:包含49009个样本,来自5个数据集:CLEVR(10000)、VQA-CP v2(10000)、TallyQA(10000)、GQA(10000)、OKVQA(9009)。
- router_train_small.csv:包含10000个样本,来自5个数据集:CLEVR(2000)、VQA-CP v2(2000)、TallyQA(2000)、GQA(2000)、OKVQA(2000)。
测试集
- mqa_test_large.csv:包含41082个样本,来自6个数据集:CLEVR(10000)、VQA-CP v2(10000)、TallyQA(10000)、GQA(10000)、OKVQA(602)、A-OKVQA(480)。
- mqa_test_balanced.csv:包含5000个样本,来自6个数据集:CLEVR(1000)、VQA-CP v2(1000)、TallyQA(1000)、GQA(1000)、OKVQA(602)、A-OKVQA(398)。
标注细节
- image_path:图像文件名,对应文件夹中的文件。
- question:问题字符串。
- answer:答案字符串,可能包含多个单词。
- source_image_id:图像来源。
- sample_dataset:问题来源。
- sample_question_id:原始数据集中的问题ID,可能为None。



