five

COCO128

收藏
github2025-03-16 更新2025-03-17 收录
下载链接:
https://github.com/developer0hye/COCO128
下载链接
链接失效反馈
官方服务:
资源简介:
COCO128是COCO2017数据集的小型子集,专门用于CI/CD测试、调试和快速实验。它包含了从COCO数据集中提取的128张图像及其对应的注释,保持了原始数据集的格式和结构。

COCO128 is a small-scale subset of the COCO2017 dataset, specifically designed for CI/CD testing, debugging and rapid experimentation. It contains 128 images and their corresponding annotations extracted from the COCO2017 dataset, while retaining the format and structure of the original dataset.
创建时间:
2025-03-11
原始信息汇总

COCO128 数据集概述

数据集简介

COCO128 是 COCO2017 数据集的一个小规模子集,用于持续集成/持续部署(CI/CD)测试、调试以及更快的实验。

数据集内容

  • train2017val2017 包含相同的图像。

工具脚本 - split_coco.py

该脚本用于从 COCO 数据集中创建更小的子集,适用于原型设计、测试或计算资源有限的情况。

功能

  • 从 COCO 数据集中提取指定数量的图像及其相应的注释。
  • 保持原始格式和结构。
  • 支持训练集和验证集的分割。
  • 在需要时,可以将验证数据作为训练数据复制。

要求

  • Python 3.6 或更高版本。
  • 必需的包:tqdmosjsonshutilargparsecopy

安装

克隆此仓库或下载脚本。安装所需的包: bash pip install tqdm

使用

基本用法: bash python split_coco.py --coco_dir /path/to/coco --target_dir /path/to/output --num_images 1000

参数

  • --coco_dir:原始 COCO 数据集的路径。
  • --target_dir:子集应保存的位置。
  • --num_images:每个分割(训练/验证)中要选择图像的数量。
  • --copy_val_as_train:可选,使用训练数据作为验证集。

上传的数据集使用 --num_images 128--copy_val_as_train 选项处理。

示例

创建每个分割包含 500 张图像的子集: bash python split_coco.py --coco_dir /datasets/coco --target_dir /datasets/coco_small --num_images 500

注意事项

  • 脚本按文件名排序后选择图像。
  • 如果请求的图像数量超过可用的图像数量,则使用所有可用的图像。
  • 如果目标目录已存在,将被清除。
  • 复制图像文件和注释文件以保持与原始数据集相同的结构。

期望的目录结构

输入 COCO 结构: plaintext /path/to/coco/ ├── train2017/ ├── val2017/ └── annotations/ ├── instances_train2017.json └── instances_val2017.json

输出结构将与输入相同,但包含较少的图像和更新的注释文件。

许可

根据 COCO 数据集的许可条款使用此脚本。

参考文献

  • https://github.com/giddyyupp/coco-minitrain
  • https://github.com/chongruo/tiny-coco
  • https://www.kaggle.com/datasets/ultralytics/coco128
搜集汇总
数据集介绍
main_image_url
构建方式
COCO128数据集是由COCO2017数据集的小型子集构成,旨在为持续集成/持续部署(CI/CD)测试、调试以及快速实验提供便利。该数据集通过split_coco.py脚本提取特定数量的图像及其相应的注释,保持了原始数据集的格式与结构。
特点
COCO128数据集的特点在于其便捷性和实用性,适用于原型设计、测试或计算资源有限的情况。它支持从原始COCO数据集中抽取可配置数量的图像和注释,维持了COCO的JSON格式,同时提供了训练集和验证集的支持,并允许在需要时将验证数据作为训练数据复制。
使用方法
使用COCO128数据集首先需要安装必要的Python包,然后通过执行split_coco.py脚本,并指定原始COCO数据集的路径、输出目标路径以及需要选择的图像数量。该脚本会按文件名排序后选择图像,并在目标目录中创建与原始数据集结构相同的子集。
背景与挑战
背景概述
COCO128数据集是基于COCO2017数据集构建的一个小型子集,旨在为持续集成/持续部署(CI/CD)测试、调试以及快速实验提供便利。COCO(Common Objects in Context)数据集由微软研究院创建,自2014年起成为计算机视觉领域的重要基准数据集之一,专注于物体检测、分割和识别等任务。COCO128的构建时间为近期,由社区贡献者在有限的计算资源下进行原型设计、测试而创建,其核心研究问题是如何在资源受限的条件下高效处理大型数据集。该数据集的创建,对于促进相关领域的研究,特别是在算法优化和计算资源管理方面,具有显著的影响力。
当前挑战
COCO128数据集所面临的挑战主要包括:1)在资源受限的环境中,如何确保数据集的多样性和代表性,以维持模型的泛化能力;2)构建小型子集时,如何保持原始COCO数据集的格式和结构,确保与现有研究和工具的兼容性;3)在数据集构建过程中,需要解决如何高效地提取和复制图像及注释数据,同时保持原有的JSON格式;4)另外,还需考虑到在数据集规模缩小后,如何平衡训练和验证数据集的分布,避免模型过拟合或欠拟合。
常用场景
经典使用场景
在计算机视觉领域,COCO128数据集作为COCO2017数据集的子集,常被用于持续集成/持续部署(CI/CD)测试、调试以及快速实验。该数据集保留了原始COCO数据集的格式和结构,使得研究者能够在一个较小规模的数据集上进行算法原型设计、测试和资源有限条件下的研究工作。
实际应用
在实际应用中,COCO128数据集被广泛用于目标检测、图像分割等计算机视觉任务的教学、算法开发和模型调优。其轻量化的特性使得该数据集成为开发人员和学生进行快速迭代和测试的理想选择。
衍生相关工作
基于COCO128数据集,研究者们衍生出了一系列相关工作,包括对数据集的扩展、针对特定任务的算法优化以及数据集的应用研究。这些工作不仅丰富了计算机视觉领域的理论研究,也为实际应用提供了强有力的技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作