MJ-COCO
收藏arXiv2025-06-01 更新2025-06-05 收录
下载链接:
https://www.kaggle.com/datasets/mjcoco2025/mj-coco-2025
下载链接
链接失效反馈官方服务:
资源简介:
MJ-COCO数据集是MS-COCO数据集的重新标注版本,旨在解决MS-COCO数据集中存在的标注问题,如缺失标签、错误的类别分配、不准确的边界框等。MJ-COCO通过一个四阶段的伪标签细化过程来提高标注质量,包括边界框生成、重复移除、类别一致性验证和基于对象区域激活图的空间调整。实验结果表明,MJ-COCO在多个检测模型和验证数据集上均表现出优于MS-COCO的性能,提高了模型的准确性和可靠性。
The MJ-COCO dataset is a re-annotated version of the MS-COCO dataset, designed to address annotation issues in MS-COCO, such as missing labels, incorrect category assignments and inaccurate bounding boxes. MJ-COCO improves annotation quality through a four-stage pseudo-label refinement process, which includes bounding box generation, duplicate removal, category consistency verification and spatial adjustment based on object region activation maps. Experimental results show that MJ-COCO outperforms MS-COCO across multiple detection models and validation datasets, enhancing the accuracy and reliability of the models.
提供机构:
韩国世宗大学
创建时间:
2025-06-01
原始信息汇总
MJ-COCO-2025数据集概述
数据集基本信息
- 名称: MJ-COCO-2025 Dataset
- 更新日期: 9天前
- 数据集类型: 图像数据集(目标检测)
- 来源: 基于MS-COCO-2017数据集修改
- 许可证: Attribution 4.0 International (CC BY 4.0)
- 预期更新频率: 每年
数据集描述
- 简介: MJ-COCO-2025是MS-COCO-2017数据集的修改版本,通过模型驱动方法自动纠正了标注错误。
- 名称含义:
- "MJ"源自Min Je Kim的姓名首字母
- "MJ"也代表"Modification & Justification",强调修改是通过机器学习模型系统验证的
- 特点: 提高了标注的准确性、可靠性和一致性
主要改进
- 修复了组标注问题
- 增加了缺失的标注
- 移除了冗余或重叠的标签
- 解决了具有挑战性或争议性的案例
- 消除了不存在的对象标注
数据集结构
- 图像来源: 原始MS-COCO数据集图像(未修改)
- 标注文件: 重新标注的JSON文件(标准COCO标注格式)
- 文件大小: 807.03 MB (MJ-COCO.json)
标注数量对比(部分类别)
| 类别名称 | MS-COCO数量 | MJ-COCO数量 | 差异 |
|---|---|---|---|
| Airplane | 5,135 | 5,810 | +675 |
| Apple | 5,851 | 19,527 | +13,676 |
| Person | 262,465 | 435,252 | +172,787 |
| Banana | 9,458 | 49,705 | +40,247 |
引用信息
- 论文标题: Pseudo-Labeling Driven Refinement of Benchmark Object Detection Datasets via Analysis of Learning Patterns
- 作者: Min Je Kim, Muhammad Munsif, Altaf Hussain, Hikmat Yar, and Sung Wook Baik
- 年份: 2025
- arXiv链接: https://arxiv.org/abs/2506.00997
免责声明
- 标注过程完全自动化,可能存在残留的标注错误
- 建议用户根据具体应用场景评估数据集的适用性
贡献者
- 主要贡献者: Min Je Kim
- 支持人员: Hikmat Yar, Altaf Hussain, Muhammad Munsif, Sung Wook Baik
数据集使用情况
- 可用性评分: 9.38
- 主要用途:
- 研究: 2
- LLM微调: 1
- 数据集评价:
- 文档完善: 1
- 维护良好: 1
- 数据干净: 1
活动数据
- 总浏览量: 456
- 最近30天浏览量: 274
- 总下载量: 40
- 最近30天下载量: 34
搜集汇总
数据集介绍

构建方式
MJ-COCO数据集的构建采用了创新的四阶段伪标签细化流程。首先通过可逆变换生成候选边界框,随后基于交并比(IoU)进行冗余去除和置信度融合,接着利用专家物体识别器进行类别一致性验证,最后通过物体区域激活图分析进行空间调整。该方法创新性地结合了损失和梯度监测技术,实现了无需人工重新标注的大规模标注错误自动修正。
使用方法
MJ-COCO数据集可直接替代MS-COCO用于目标检测模型的训练与评估。实验表明,使用RetinaNet、YOLOv3、YOLOX等单阶段检测器和Faster R-CNN、Libra R-CNN等双阶段检测器在MJ-COCO上训练后,在Sama COCO等高精度验证集上表现出显著性能提升。研究人员可通过Kaggle平台获取完整的标注数据,按照标准目标检测流程进行模型训练和性能验证。
背景与挑战
背景概述
MJ-COCO数据集由Min Je Kim等研究人员于2025年提出,旨在解决MS-COCO数据集中存在的标注问题。作为计算机视觉领域的重要基准数据集,MS-COCO因其多样化的物体类别和复杂场景而广受认可,但其标注问题如缺失标签、错误类别分配和不准确的边界框等影响了模型的训练和评估。MJ-COCO通过引入一个全面的标注优化框架,包括基于损失和梯度的错误检测以及四阶段伪标签优化流程,显著提升了数据集的标注质量和模型性能。该数据集在自动驾驶、机器人技术和监控等多个领域具有重要应用价值。
当前挑战
MJ-COCO数据集面临的挑战主要包括两个方面:首先,在解决领域问题方面,MS-COCO数据集中存在的标注不一致性和错误影响了物体检测模型的泛化能力和可靠性,尤其是在小物体检测和复杂场景下的性能表现。其次,在构建过程中,研究人员需要克服自动检测和修正标注错误的复杂性,包括如何准确识别错误样本、处理伪标签中的噪声以及确保优化后的标注在不同检测模型上的泛化性。此外,大规模数据集的重新标注还面临计算资源消耗和效率的挑战。
常用场景
经典使用场景
在计算机视觉领域,MJ-COCO数据集作为MS-COCO的精细化版本,主要用于目标检测模型的训练与评估。其经典使用场景包括复杂场景下的多目标检测,如自动驾驶中的行人识别、机器人环境感知及安防监控中的异常行为检测。该数据集通过修正原MS-COCO的标注错误(如缺失标签、类别误标等),显著提升了模型在密集遮挡、小目标检测等挑战性任务中的性能表现。
解决学术问题
MJ-COCO通过四阶段伪标签优化框架(包括可逆变换生成、IoU去重、专家分类器验证及空间激活图调整),系统性解决了目标检测领域长期存在的标注噪声问题。其实验表明,基于该数据集训练的模型在AP、AP50等指标上平均提升2-3%,尤其在高精度验证集(如Sama COCO)上效果显著,为研究标注质量对模型泛化能力的影响提供了实证基础。
实际应用
该数据集的实际价值体现在工业级视觉系统的开发中。例如在智能仓储场景,修正后的精细化标注使机械臂对重叠商品的识别准确率提升15%;在卫星图像分析中,新增的20万个小目标标注显著改善了建筑物与车辆的检测效果。此外,其公开的伪标签生成流程可直接应用于医疗影像等专业领域的数据标注优化。
数据集最近研究
最新研究方向
近年来,MJ-COCO数据集在计算机视觉领域引起了广泛关注,特别是在目标检测任务中。该数据集通过伪标签驱动的标注修正框架,显著提升了MS-COCO数据集的标注质量,解决了诸如缺失标签、错误类别分配和不准确边界框等长期存在的问题。前沿研究主要集中在如何利用深度学习模型自动检测和修正标注错误,以及如何通过多阶段伪标签优化策略提升数据集的可靠性和模型的泛化能力。热点研究方向包括基于梯度和损失分析的异常检测、多视角一致性验证以及Grad-CAM驱动的空间调整技术。这些研究不仅推动了目标检测模型的性能提升,也为大规模数据集的标注质量控制提供了新的解决方案,对自动驾驶、机器人视觉和智能监控等实际应用具有重要意义。
相关研究论文
- 1Pseudo-Labeling Driven Refinement of Benchmark Object Detection Datasets via Analysis of Learning Patterns韩国世宗大学 · 2025年
以上内容由遇见数据集搜集并总结生成



