five

COCO128|计算机视觉数据集|图像识别数据集

收藏
github2025-03-16 更新2025-03-17 收录
计算机视觉
图像识别
下载链接:
https://github.com/developer0hye/COCO128
下载链接
链接失效反馈
资源简介:
COCO128是COCO2017数据集的小型子集,专门用于CI/CD测试、调试和快速实验。它包含了从COCO数据集中提取的128张图像及其对应的注释,保持了原始数据集的格式和结构。
创建时间:
2025-03-11
原始信息汇总

COCO128 数据集概述

数据集简介

COCO128 是 COCO2017 数据集的一个小规模子集,用于持续集成/持续部署(CI/CD)测试、调试以及更快的实验。

数据集内容

  • train2017val2017 包含相同的图像。

工具脚本 - split_coco.py

该脚本用于从 COCO 数据集中创建更小的子集,适用于原型设计、测试或计算资源有限的情况。

功能

  • 从 COCO 数据集中提取指定数量的图像及其相应的注释。
  • 保持原始格式和结构。
  • 支持训练集和验证集的分割。
  • 在需要时,可以将验证数据作为训练数据复制。

要求

  • Python 3.6 或更高版本。
  • 必需的包:tqdmosjsonshutilargparsecopy

安装

克隆此仓库或下载脚本。安装所需的包: bash pip install tqdm

使用

基本用法: bash python split_coco.py --coco_dir /path/to/coco --target_dir /path/to/output --num_images 1000

参数

  • --coco_dir:原始 COCO 数据集的路径。
  • --target_dir:子集应保存的位置。
  • --num_images:每个分割(训练/验证)中要选择图像的数量。
  • --copy_val_as_train:可选,使用训练数据作为验证集。

上传的数据集使用 --num_images 128--copy_val_as_train 选项处理。

示例

创建每个分割包含 500 张图像的子集: bash python split_coco.py --coco_dir /datasets/coco --target_dir /datasets/coco_small --num_images 500

注意事项

  • 脚本按文件名排序后选择图像。
  • 如果请求的图像数量超过可用的图像数量,则使用所有可用的图像。
  • 如果目标目录已存在,将被清除。
  • 复制图像文件和注释文件以保持与原始数据集相同的结构。

期望的目录结构

输入 COCO 结构: plaintext /path/to/coco/ ├── train2017/ ├── val2017/ └── annotations/ ├── instances_train2017.json └── instances_val2017.json

输出结构将与输入相同,但包含较少的图像和更新的注释文件。

许可

根据 COCO 数据集的许可条款使用此脚本。

参考文献

  • https://github.com/giddyyupp/coco-minitrain
  • https://github.com/chongruo/tiny-coco
  • https://www.kaggle.com/datasets/ultralytics/coco128
AI搜集汇总
数据集介绍
main_image_url
构建方式
COCO128数据集是由COCO2017数据集的小型子集构成,旨在为持续集成/持续部署(CI/CD)测试、调试以及快速实验提供便利。该数据集通过split_coco.py脚本提取特定数量的图像及其相应的注释,保持了原始数据集的格式与结构。
特点
COCO128数据集的特点在于其便捷性和实用性,适用于原型设计、测试或计算资源有限的情况。它支持从原始COCO数据集中抽取可配置数量的图像和注释,维持了COCO的JSON格式,同时提供了训练集和验证集的支持,并允许在需要时将验证数据作为训练数据复制。
使用方法
使用COCO128数据集首先需要安装必要的Python包,然后通过执行split_coco.py脚本,并指定原始COCO数据集的路径、输出目标路径以及需要选择的图像数量。该脚本会按文件名排序后选择图像,并在目标目录中创建与原始数据集结构相同的子集。
背景与挑战
背景概述
COCO128数据集是基于COCO2017数据集构建的一个小型子集,旨在为持续集成/持续部署(CI/CD)测试、调试以及快速实验提供便利。COCO(Common Objects in Context)数据集由微软研究院创建,自2014年起成为计算机视觉领域的重要基准数据集之一,专注于物体检测、分割和识别等任务。COCO128的构建时间为近期,由社区贡献者在有限的计算资源下进行原型设计、测试而创建,其核心研究问题是如何在资源受限的条件下高效处理大型数据集。该数据集的创建,对于促进相关领域的研究,特别是在算法优化和计算资源管理方面,具有显著的影响力。
当前挑战
COCO128数据集所面临的挑战主要包括:1)在资源受限的环境中,如何确保数据集的多样性和代表性,以维持模型的泛化能力;2)构建小型子集时,如何保持原始COCO数据集的格式和结构,确保与现有研究和工具的兼容性;3)在数据集构建过程中,需要解决如何高效地提取和复制图像及注释数据,同时保持原有的JSON格式;4)另外,还需考虑到在数据集规模缩小后,如何平衡训练和验证数据集的分布,避免模型过拟合或欠拟合。
常用场景
经典使用场景
在计算机视觉领域,COCO128数据集作为COCO2017数据集的子集,常被用于持续集成/持续部署(CI/CD)测试、调试以及快速实验。该数据集保留了原始COCO数据集的格式和结构,使得研究者能够在一个较小规模的数据集上进行算法原型设计、测试和资源有限条件下的研究工作。
实际应用
在实际应用中,COCO128数据集被广泛用于目标检测、图像分割等计算机视觉任务的教学、算法开发和模型调优。其轻量化的特性使得该数据集成为开发人员和学生进行快速迭代和测试的理想选择。
衍生相关工作
基于COCO128数据集,研究者们衍生出了一系列相关工作,包括对数据集的扩展、针对特定任务的算法优化以及数据集的应用研究。这些工作不仅丰富了计算机视觉领域的理论研究,也为实际应用提供了强有力的技术支撑。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

高速列车走行部轴承故障数据集

数据集内容是CR400BF型动车组的轴箱轴承、齿轮箱轴承、电机轴承的故障试验数据,包括轴承的温度监测信号和振动监测信号,故障位置涵盖了轴承内圈故障、外圈故障、保持架故障、滚动体故障,故障工况涵盖了不同转速、不同静载荷、不同激振的近百种工况。数据量1.2GB。

国家基础学科公共科学数据中心 收录

rock-crack and concrete-crack dataset, CT-slice-crack dataset

岩石裂缝与CT岩心裂缝语义分割数据集,用于识别道路、建筑物和其他民用结构上的裂缝。

github 收录

CWRU bearing fault dataset

CWRU数据集的故障类别被总结为总共十类数据,包括一种正常数据和九种故障数据。该数据集包含两种采样频率的数据,12k Hz和48k Hz,正常数据除外,它只有48k Hz的采样频率。对于这些数据,我们使用12k Hz采样频率的数据。

github 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录