xiaomogu_pami_dataset

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/xiaomoguhzz/xiaomogu_pami_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DeCLIP数据集标注文件包含COCO数据集的多种标注类型，如实例分割、全景分割、描述标注等，以及LVIS和RefCOCO系列的标注文件。这些标注文件用于支持DeCLIP项目的训练和验证，但不包含图片数据，需单独下载。

创建时间：

2026-01-17

原始信息汇总

DeCLIP 数据集标注文件概述

数据集基本信息

数据集名称：DeCLIP 数据集标注文件
发布者：xiaomoguhzz
存储平台：Hugging Face Datasets
数据集地址：https://huggingface.co/datasets/xiaomoguhzz/xiaomogu_pami_dataset
核心内容：本目录包含 DeCLIP 项目使用的 COCO 数据集标注文件（仅标注，不含图片）。

文件组成与结构

数据集包含以下压缩文件，均为标注文件，不包含原始图片。

核心标注 (coco_annotations_core.zip)

instances_train2017.json - COCO 实例分割标注（训练集）
instances_val2017.json - COCO 实例分割标注（验证集）
panoptic_train2017.json - COCO 全景分割标注（训练集）
panoptic_val2017.json - COCO 全景分割标注（验证集）
captions_train2017_tags_allcaps.json - COCO 描述标注

全景分割 PNG masks (coco_panoptic_masks.zip)

panoptic_train2017/ - 训练集全景分割 PNG masks (118,287 个文件)
panoptic_val2017/ - 验证集全景分割 PNG masks (5,000 个文件)

转换后标注 (coco_converted_annotations.zip)

png_coco_train2017.json - 转换为 PNG 格式的训练集标注
png_coco_val2017.json - 转换为 PNG 格式的验证集标注
train2017/ - labelTrainIds 格式的训练集 PNG masks
val2017/ - labelTrainIds 格式的验证集 PNG masks

LVIS 标注 (lvis_annotations.zip) - 可选

lvis_v1_train.json - LVIS v1.0 训练标注 (1203 类，基于 COCO 图片)

RefCOCO 系列标注 (refcoco_annotations.zip) - 可选

refcoco/ - RefCOCO 数据集标注
refcoco+/ - RefCOCO+ 数据集标注
refcocog/ - RefCOCOg 数据集标注

数据下载与使用

下载方法

使用 huggingface-cli 工具下载所有或指定标注文件。
下载后需解压至指定目录。
COCO 原始图片需单独下载，下载地址为：
- 训练集图片 (19GB)：http://images.cocodataset.org/zips/train2017.zip
- 验证集图片 (1GB)：http://images.cocodataset.org/zips/val2017.zip

存储空间需求

项目	大小	说明
标注文件（压缩）	~2.75 GB	5 个 zip 文件
标注文件（解压）	~3-4 GB	解压后
COCO 图片	~20 GB	需单独下载
总计	~23-24 GB	完整数据集

相关资源与许可证

许可证

COCO 数据集: CC BY 4.0
LVIS 数据集: CC BY 4.0
RefCOCO 系列: 研究使用

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理交叉领域，数据集的构建往往需要融合多模态信息。xiaomogu_pami_dataset的构建基于经典的COCO数据集，通过整合实例分割、全景分割以及图像描述标注，形成了一个多任务标注体系。该数据集进一步引入了LVIS和RefCOCO系列标注，扩展了类别覆盖与指代表达能力，从而为视觉语言模型提供了丰富的结构化监督信号。其构建过程注重标注的一致性与兼容性，确保了不同任务标注间的对齐与协同。

特点

该数据集的核心特征在于其多层次、多任务的标注体系。它不仅包含了COCO数据集中标准的实例与全景分割标注，还整合了经过处理的图像描述文本，以及可选的LVIS细粒度类别标注和RefCOCO系列的指代表达标注。这种设计使得数据集能够同时支持目标检测、分割、图像描述生成以及视觉指代理解等多种视觉语言任务。数据集的结构清晰，标注文件经过转换与整理，便于研究者根据需求灵活选用不同子集。

使用方法

使用该数据集需遵循模块化的步骤。首先，通过Hugging Face命令行工具下载所需的标注压缩包。随后，将压缩包解压至本地指定的目录结构中。需要注意的是，数据集本身仅包含标注文件，原始的COCO图像需从官方渠道另行下载并放置于对应路径。完成数据准备后，研究者可根据任务需求，加载相应的JSON标注文件或PNG掩码文件，将其与图像数据结合，用于模型训练或评估。数据集提供了清晰的目录结构和文件说明，确保了使用的便捷性。

背景与挑战

背景概述

Xiaomogu PAMI 数据集是 DeCLIP 项目的重要组成部分，该项目聚焦于计算机视觉领域的多任务学习与跨模态理解。该数据集构建于 2020 年代初期，由研究团队 xiaomoguhzz 主导，其核心研究问题在于如何高效整合并利用大规模标注数据，以推动视觉语言模型的预训练与微调。它基于经典的 COCO 数据集，并融合了 LVIS 与 RefCOCO 系列标注，旨在为实例分割、全景分割及视觉定位等任务提供统一且丰富的标注资源，显著提升了模型在复杂场景下的理解与生成能力，对视觉与语言交叉领域的研究产生了深远影响。

当前挑战

该数据集致力于解决视觉语言模型在细粒度视觉理解与跨模态对齐方面的核心挑战，具体包括实例分割中目标边界的精确界定、全景分割中“物品”与“背景”的语义区分，以及视觉定位任务中指代表达的歧义消解。在构建过程中，挑战主要源于多源异构标注的集成与标准化，例如将 COCO、LVIS 和 RefCOCO 的不同标注格式与语义体系进行对齐，同时确保大规模标注数据在存储、分发与使用中的高效性与一致性，这些技术难点对数据工程的鲁棒性提出了较高要求。

常用场景

经典使用场景

在计算机视觉领域，多模态学习已成为推动模型理解复杂视觉场景的关键方向。xiaomogu_pami_dataset作为DeCLIP项目的核心标注资源，其经典使用场景聚焦于视觉-语言联合建模。该数据集整合了COCO的实例分割、全景分割及描述性标注，为研究者提供了丰富的结构化视觉信息与文本描述对，使得模型能够同时学习对象识别、场景解析与语义生成任务，从而在图像描述生成、视觉问答等跨模态任务中实现精准的语义对齐与内容理解。

实际应用

在实际应用层面，xiaomogu_pami_dataset为智能视觉系统提供了关键的数据支撑。基于其丰富的标注信息，该数据集可应用于自动驾驶中的场景理解，帮助车辆识别道路对象与语义环境；在智能辅助系统中，它支持图像内容描述生成，助力视障用户感知视觉世界；此外，在内容审核与媒体分析领域，该数据集能训练模型进行精准的对象检测与语义分析，提升自动化处理的效率与准确性，推动视觉AI技术的落地与普及。

衍生相关工作

该数据集衍生了多项经典研究工作，其中DeCLIP项目作为代表性成果，探索了视觉-语言对比学习的预训练框架。基于数据集的标注，研究者进一步开发了多任务学习模型，整合实例分割、全景分割与描述生成，提升了模型的综合性能。此外，该数据集还促进了LVIS与RefCOCO等扩展标注的融合应用，推动了开放词汇检测、指代表达理解等前沿方向的发展，为后续如CLIP、ALIGN等跨模态模型的优化与创新提供了重要的数据基础与实验验证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集