shi-labs/COST

Name: shi-labs/COST
Creator: shi-labs
Published: 2024-04-23 13:36:40
License: 暂无描述

Hugging Face2024-04-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shi-labs/COST

下载链接

链接失效反馈

官方服务：

资源简介：

COST数据集包含用于训练和评估多模态大语言模型（MLLMs）在对象级感知任务上的多个组件。这些组件包括从COCO-2017数据集中获取的RGB图像、使用DiNAT-L OneFormer模型生成的分割图（用于语义、实例和全景分割任务）、通过GPT-4生成的问题（用于对象识别和对象顺序感知任务）以及使用DINOv2 DPT模型生成的深度图。数据集将这些信息以文本形式表示，最终生成问答对。数据集提供了不同的训练和评估分割，包括训练集、验证集等。

提供机构：

shi-labs

原始信息汇总

COST 数据集

COST 数据集包含以下组件，用于训练和评估多模态大型语言模型（MLLMs）在物体级别感知任务上的表现：

RGB 图像：来源于 COCO-2017 数据集。
分割图：用于语义、实例和全景分割任务，使用公开可用的 DiNAT-L OneFormer 模型在 COCO 数据集上训练得到。
问题：通过提示 GPT-4 生成，用于物体识别和物体顺序感知任务。问题可在 questions.py 中找到。
深度图：使用公开可用的 ViT-L/14 蒸馏变体 DINOv2 DPT 模型在 NYUd 数据集上训练得到。

我们以文本形式表示分割图和深度图的信息，以获得最终的问答对。更多细节请参考我们的论文第 3.1 节。

数据集提供了不同的分割用于训练和评估：

分割	图像数量	问答对数量	来源
train	280k	280k	train2017, test2017, unlabeled2017
val	5k	5k	val2017

文件结构

text coco_segm_text ├── depth │ └── test │ │ └── ... │ └── train │ │ └── depth # 包含 train2017 分割的深度图 │ │ └── panoptic_order.txt # 包含 test2017 分割图像的物体顺序感知任务答案 │ └── unlabeled │ │ └── ... │ └── val │ │ └── ... ├── test │ └── ... ├── train │ └── instance_inference # 包含 train2017 分割的实例掩码 │ └── instance.txt # 包含 train2017 分割图像的实例物体识别任务答案 │ └── panoptic_inference # 包含 train2017 分割的全景掩码 │ └── panoptic.txt # 包含 train2017 分割图像的全景物体识别任务答案 │ └── semantic_inference # 包含 train2017 分割的语义掩码 │ └── semantic.txt # 包含 train2017 分割图像的实例物体识别任务答案 ├── unlabeled │ └── ... ├── val │ └── ...

5,000+

优质数据集

54 个

任务类型

进入经典数据集