shi-labs/COST
收藏COST 数据集
COST 数据集包含以下组件,用于训练和评估多模态大型语言模型(MLLMs)在物体级别感知任务上的表现:
- RGB 图像:来源于 COCO-2017 数据集。
- 分割图:用于语义、实例和全景分割任务,使用公开可用的 DiNAT-L OneFormer 模型在 COCO 数据集上训练得到。
- 问题:通过提示 GPT-4 生成,用于物体识别和物体顺序感知任务。问题可在 questions.py 中找到。
- 深度图:使用公开可用的 ViT-L/14 蒸馏变体 DINOv2 DPT 模型在 NYUd 数据集上训练得到。
我们以文本形式表示分割图和深度图的信息,以获得最终的问答对。更多细节请参考我们的论文第 3.1 节。
数据集提供了不同的分割用于训练和评估:
| 分割 | 图像数量 | 问答对数量 | 来源 |
|---|---|---|---|
| train | 280k | 280k | train2017, test2017, unlabeled2017 |
| val | 5k | 5k | val2017 |
文件结构
text coco_segm_text ├── depth │ └── test │ │ └── ... │ └── train │ │ └── depth # 包含 train2017 分割的深度图 │ │ └── panoptic_order.txt # 包含 test2017 分割图像的物体顺序感知任务答案 │ └── unlabeled │ │ └── ... │ └── val │ │ └── ... ├── test │ └── ... ├── train │ └── instance_inference # 包含 train2017 分割的实例掩码 │ └── instance.txt # 包含 train2017 分割图像的实例物体识别任务答案 │ └── panoptic_inference # 包含 train2017 分割的全景掩码 │ └── panoptic.txt # 包含 train2017 分割图像的全景物体识别任务答案 │ └── semantic_inference # 包含 train2017 分割的语义掩码 │ └── semantic.txt # 包含 train2017 分割图像的实例物体识别任务答案 ├── unlabeled │ └── ... ├── val │ └── ...



