COCO128|计算机视觉数据集|图像识别数据集
收藏COCO128 数据集概述
数据集简介
COCO128 是 COCO2017 数据集的一个小规模子集,用于持续集成/持续部署(CI/CD)测试、调试以及更快的实验。
数据集内容
train2017
和val2017
包含相同的图像。
工具脚本 - split_coco.py
该脚本用于从 COCO 数据集中创建更小的子集,适用于原型设计、测试或计算资源有限的情况。
功能
- 从 COCO 数据集中提取指定数量的图像及其相应的注释。
- 保持原始格式和结构。
- 支持训练集和验证集的分割。
- 在需要时,可以将验证数据作为训练数据复制。
要求
- Python 3.6 或更高版本。
- 必需的包:
tqdm
、os
、json
、shutil
、argparse
、copy
。
安装
克隆此仓库或下载脚本。安装所需的包: bash pip install tqdm
使用
基本用法: bash python split_coco.py --coco_dir /path/to/coco --target_dir /path/to/output --num_images 1000
参数
--coco_dir
:原始 COCO 数据集的路径。--target_dir
:子集应保存的位置。--num_images
:每个分割(训练/验证)中要选择图像的数量。--copy_val_as_train
:可选,使用训练数据作为验证集。
上传的数据集使用 --num_images 128
和 --copy_val_as_train
选项处理。
示例
创建每个分割包含 500 张图像的子集: bash python split_coco.py --coco_dir /datasets/coco --target_dir /datasets/coco_small --num_images 500
注意事项
- 脚本按文件名排序后选择图像。
- 如果请求的图像数量超过可用的图像数量,则使用所有可用的图像。
- 如果目标目录已存在,将被清除。
- 复制图像文件和注释文件以保持与原始数据集相同的结构。
期望的目录结构
输入 COCO 结构: plaintext /path/to/coco/ ├── train2017/ ├── val2017/ └── annotations/ ├── instances_train2017.json └── instances_val2017.json
输出结构将与输入相同,但包含较少的图像和更新的注释文件。
许可
根据 COCO 数据集的许可条款使用此脚本。
参考文献
- https://github.com/giddyyupp/coco-minitrain
- https://github.com/chongruo/tiny-coco
- https://www.kaggle.com/datasets/ultralytics/coco128

高速列车走行部轴承故障数据集
数据集内容是CR400BF型动车组的轴箱轴承、齿轮箱轴承、电机轴承的故障试验数据,包括轴承的温度监测信号和振动监测信号,故障位置涵盖了轴承内圈故障、外圈故障、保持架故障、滚动体故障,故障工况涵盖了不同转速、不同静载荷、不同激振的近百种工况。数据量1.2GB。
国家基础学科公共科学数据中心 收录
rock-crack and concrete-crack dataset, CT-slice-crack dataset
岩石裂缝与CT岩心裂缝语义分割数据集,用于识别道路、建筑物和其他民用结构上的裂缝。
github 收录
CWRU bearing fault dataset
CWRU数据集的故障类别被总结为总共十类数据,包括一种正常数据和九种故障数据。该数据集包含两种采样频率的数据,12k Hz和48k Hz,正常数据除外,它只有48k Hz的采样频率。对于这些数据,我们使用12k Hz采样频率的数据。
github 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录