five

shi-labs/COST

收藏
Hugging Face2024-04-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shi-labs/COST
下载链接
链接失效反馈
官方服务:
资源简介:
COST数据集包含用于训练和评估多模态大语言模型(MLLMs)在对象级感知任务上的多个组件。这些组件包括从COCO-2017数据集中获取的RGB图像、使用DiNAT-L OneFormer模型生成的分割图(用于语义、实例和全景分割任务)、通过GPT-4生成的问题(用于对象识别和对象顺序感知任务)以及使用DINOv2 DPT模型生成的深度图。数据集将这些信息以文本形式表示,最终生成问答对。数据集提供了不同的训练和评估分割,包括训练集、验证集等。

COST数据集包含用于训练和评估多模态大语言模型(MLLMs)在对象级感知任务上的多个组件。这些组件包括从COCO-2017数据集中获取的RGB图像、使用DiNAT-L OneFormer模型生成的分割图(用于语义、实例和全景分割任务)、通过GPT-4生成的问题(用于对象识别和对象顺序感知任务)以及使用DINOv2 DPT模型生成的深度图。数据集将这些信息以文本形式表示,最终生成问答对。数据集提供了不同的训练和评估分割,包括训练集、验证集等。
提供机构:
shi-labs
原始信息汇总

COST 数据集

COST 数据集包含以下组件,用于训练和评估多模态大型语言模型(MLLMs)在物体级别感知任务上的表现:

  • RGB 图像:来源于 COCO-2017 数据集。
  • 分割图:用于语义、实例和全景分割任务,使用公开可用的 DiNAT-L OneFormer 模型在 COCO 数据集上训练得到。
  • 问题:通过提示 GPT-4 生成,用于物体识别和物体顺序感知任务。问题可在 questions.py 中找到。
  • 深度图:使用公开可用的 ViT-L/14 蒸馏变体 DINOv2 DPT 模型在 NYUd 数据集上训练得到。

我们以文本形式表示分割图和深度图的信息,以获得最终的问答对。更多细节请参考我们的论文第 3.1 节。

数据集提供了不同的分割用于训练和评估:

分割 图像数量 问答对数量 来源
train 280k 280k train2017, test2017, unlabeled2017
val 5k 5k val2017

文件结构

text coco_segm_text ├── depth │ └── test │ │ └── ... │ └── train │ │ └── depth # 包含 train2017 分割的深度图 │ │ └── panoptic_order.txt # 包含 test2017 分割图像的物体顺序感知任务答案 │ └── unlabeled │ │ └── ... │ └── val │ │ └── ... ├── test │ └── ... ├── train │ └── instance_inference # 包含 train2017 分割的实例掩码 │ └── instance.txt # 包含 train2017 分割图像的实例物体识别任务答案 │ └── panoptic_inference # 包含 train2017 分割的全景掩码 │ └── panoptic.txt # 包含 train2017 分割图像的全景物体识别任务答案 │ └── semantic_inference # 包含 train2017 分割的语义掩码 │ └── semantic.txt # 包含 train2017 分割图像的实例物体识别任务答案 ├── unlabeled │ └── ... ├── val │ └── ...

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作