wlin21at/CaD-Inst
收藏Hugging Face2024-06-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/wlin21at/CaD-Inst
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个主要部分:CaD-Inst和CaD-QA。CaD-Inst是一个用于视觉指令调优的数据集,包含349K图像对的指令数据,分为Phase1(278K)和Phase2(71K)两个阶段。CaD-QA包含7.5K开放性问题对,用于评估大模型对图像对共性和差异的理解能力。Phase1数据来源于Localized Narratives数据集,Phase2数据来源于MIMIC-IT Scene-Difference数据集(图像最初来源于COCO),CaD_QA_eval数据来源于Visual Genome。
提供机构:
wlin21at
原始信息汇总
数据集概述
数据集名称
- Comparison Visual Instruction Tuning
数据集大小
- 100K<n<1M
数据集配置
-
Phase1
- 特征:
- id: 字符串
- image: 字符串
- conversations: 字符串
- clip_sim_score: 浮点数
- null_dask_index: 整数
- 数据文件:
- train: Phase1/phase1_278K.parquet
- 特征:
-
Phase2
- 特征:
- id: 字符串
- image: 字符串
- conversations: 字符串
- null_dask_index: 整数
- 数据文件:
- train: Phase2/phase2_71K.parquet
- 特征:
-
CaD_QA_eval
- 特征:
- id: 字符串
- image: 字符串
- question: 字符串
- answer: 字符串
- null_dask_index: 整数
- 数据文件:
- test: CaD_QA_eval/CaD_QA_7.5K.parquet
- 特征:
数据集内容
- CaD-Inst: 包含349K图像对,用于指导总结图像对的共同点和差异。包括Phase 1数据(278K)和Phase 2数据(71K)。
- CaD-QA: 包含7.5K开放式问答对,用于评估LMMs对图像对共同点和差异的理解能力。
数据集结构
-
CaD_QA_eval 样本结构:
{ id: 字符串, image: 字符串, question: 字符串, answer: 字符串, null_dask_index: 整数 }
-
Phase1 和 Phase2 样本结构:
{ id: 字符串, image: 字符串, conversations: 字符串, clip_sim_score: 浮点数(仅Phase1), null_dask_index: 整数 }
图像来源
- Phase1: Open Images v6, COCO 2017, ADE20K, Flickr30k
- Phase2: COCO 2017
- CaD_QA_eval: Visual Genome



