猫狗检测数据集

github2025-01-22 更新2025-02-10 收录

下载链接：

https://github.com/Dongdong-d/GroundingDino-Finetuning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集采用coco格式，包含两个类别cat和dog，用于猫狗检测。

The dataset is formatted in COCO style and contains two categories, 'cat' and 'dog', for cat and dog detection.

创建时间：

2025-01-20

原始信息汇总

GroundingDino-Finetuning 数据集概述

数据集基本信息

数据集名称：猫狗检测数据集
数据格式：COCO格式
类别数量：2类（"cat"和"dog"）
更新时间：2025/1/22（修复验证指标过低问题）

数据集结构

DATASET ├─dogcat_coco
├── annotations ├─ instances_train.json ├─ instances_val.json ├── train ├─ 000000000009.jpg ├─ 000000580008.jpg ├── val ├─ 000000000139.jpg ├─ 000000000285.jpg

数据集准备

转换工具：tools/coco2odvg.py
转换参数：
- --root：图片根目录，包含train/val
- --train_coco：训练集标签地址
- --val_coco：验证集标签地址
- --mode_train：训练集格式
- --mode_val：验证集格式
- --ori_map：类别映射
- --output：输出数据集配置文件地址

配置文件

主要配置：config/cfg_odvg.py
关键参数：
- batch_size：4
- epochs：15
- backbone：swin_B_384_22k
- label_list：["cat","dog"]
- dn_labelbook_size：3（类别+背景）

训练与测试

训练脚本：finetuning.sh
测试脚本：tools/inference.py
测试参数：
- -i：输入图片目录
- -c：配置文件
- -t：检测目标（cat . dog）
- -p：模型权重路径
- -o：输出目录

已知问题与修复

问题：验证指标过低
原因：数据集转换过程中训练集标签从0开始，而验证集标签从1开始
修复：修改转换脚本同步验证集标签

搜集汇总

数据集介绍

构建方式

猫狗检测数据集是基于COCO格式构建的，其结构包括训练集和验证集的图像以及相应的标注文件。数据集转换过程中，通过脚本将原始的COCO格式数据转换为odvg格式，确保了数据的一致性和模型的训练效率。

特点

该数据集的特点在于其简洁的类目设置，仅包含猫和狗两种类别，便于模型快速聚焦于目标检测任务。同时，数据集提供了详细的标注信息，包括边框坐标和类别标签，有助于训练准确度高的检测模型。

使用方法

使用该数据集时，首先需要配置环境并安装必要的依赖。然后通过脚本将COCO格式数据转换为odvg格式，接着在配置文件中设置训练参数，如batch_size、epochs等。之后，通过finetuning.sh脚本启动训练过程，并使用训练好的模型进行预测和评估。

背景与挑战

背景概述

猫狗检测数据集，创建于2025年1月22日，旨在解决开放场景下对象检测的问题。该数据集由IDEA-Research团队开发，主要研究人员包括IDEA-Research团队的核心成员。数据集的核心研究问题是提高小对象检测的准确性和鲁棒性，对于推动计算机视觉领域的发展具有重要的科学价值和实际应用意义。数据集通过采用coco格式，包含猫和狗两个类别，为研究人员提供了一个标准的测试平台。该数据集已被广泛应用于开放集对象检测的研究和实践中，对相关领域产生了显著的影响力。

当前挑战

在研究领域，猫狗检测数据集所面临的挑战主要包括：1)小对象的检测问题，由于图像中猫狗等小对象的特征不明显，导致检测难度增加；2)数据集构建过程中，遇到了标签错位的问题，这影响了模型验证的准确性。此外，在实际应用中，如何有效提高模型对于复杂场景下猫狗检测的准确性和实时性，也是当前研究的重要挑战。

常用场景

经典使用场景

在深度学习领域，猫狗检测数据集被广泛用于图像识别与目标检测任务中，其经典使用场景是作为训练模型的基础数据源，帮助模型学习识别并区分不同种类的动物图像，进而提升模型在复杂场景下的检测准确性。

解决学术问题

该数据集解决了目标检测中的分类问题，尤其是小对象检测和类别混淆的难题。它通过提供精确标注的猫狗图像，使得研究者能够训练出具有较高召回率和精确率的检测模型，对于提高计算机视觉在真实世界应用中的性能具有重要意义。

衍生相关工作

基于该数据集，研究者们衍生出了一系列相关工作，如利用该数据集进行模型微调以适应特定场景的需求，或是开展跨领域的研究，如结合自然语言处理技术进行图像描述生成等，进一步拓宽了计算机视觉的研究和应用范围。

以上内容由遇见数据集搜集并总结生成