five

wlin21at/CaD-Inst

收藏
Hugging Face2024-06-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/wlin21at/CaD-Inst
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个主要部分:CaD-Inst和CaD-QA。CaD-Inst是一个用于视觉指令调优的数据集,包含349K图像对的指令数据,分为Phase1(278K)和Phase2(71K)两个阶段。CaD-QA包含7.5K开放性问题对,用于评估大模型对图像对共性和差异的理解能力。Phase1数据来源于Localized Narratives数据集,Phase2数据来源于MIMIC-IT Scene-Difference数据集(图像最初来源于COCO),CaD_QA_eval数据来源于Visual Genome。
提供机构:
wlin21at
原始信息汇总

数据集概述

数据集名称

  • Comparison Visual Instruction Tuning

数据集大小

  • 100K<n<1M

数据集配置

  • Phase1

    • 特征:
      • id: 字符串
      • image: 字符串
      • conversations: 字符串
      • clip_sim_score: 浮点数
      • null_dask_index: 整数
    • 数据文件:
      • train: Phase1/phase1_278K.parquet
  • Phase2

    • 特征:
      • id: 字符串
      • image: 字符串
      • conversations: 字符串
      • null_dask_index: 整数
    • 数据文件:
      • train: Phase2/phase2_71K.parquet
  • CaD_QA_eval

    • 特征:
      • id: 字符串
      • image: 字符串
      • question: 字符串
      • answer: 字符串
      • null_dask_index: 整数
    • 数据文件:
      • test: CaD_QA_eval/CaD_QA_7.5K.parquet

数据集内容

  • CaD-Inst: 包含349K图像对,用于指导总结图像对的共同点和差异。包括Phase 1数据(278K)和Phase 2数据(71K)。
  • CaD-QA: 包含7.5K开放式问答对,用于评估LMMs对图像对共同点和差异的理解能力。

数据集结构

  • CaD_QA_eval 样本结构:

    { id: 字符串, image: 字符串, question: 字符串, answer: 字符串, null_dask_index: 整数 }

  • Phase1Phase2 样本结构:

    { id: 字符串, image: 字符串, conversations: 字符串, clip_sim_score: 浮点数(仅Phase1), null_dask_index: 整数 }

图像来源

  • Phase1: Open Images v6, COCO 2017, ADE20K, Flickr30k
  • Phase2: COCO 2017
  • CaD_QA_eval: Visual Genome
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作