BXC_AutoML训练数据集

github2025-06-29 更新2025-07-08 收录

下载链接：

https://github.com/beixiaocai/BXC_AutoML

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库提供了多个训练数据集，包括检测密集人群数据集、检测明厨亮灶数据集、检测攀爬数据集、检测抽烟数据集、检测打架数据集、检测反光衣数据集、检测粉尘数据集、检测火焰烟雾数据集、检测人头和安全帽数据集、检测人体5动作数据集、检测学生3状态数据集、检测睡岗数据集、猫狗2分类数据集、车型9分类数据集、打鼾+不打鼾语音识别2分类数据集等。

This repository provides multiple training datasets, including dense crowd detection dataset, bright kitchen and bright stove detection dataset, climbing detection dataset, smoking detection dataset, fighting detection dataset, reflective clothing detection dataset, dust detection dataset, flame and smoke detection dataset, head and safety helmet detection dataset, 5-action human body detection dataset, 3-state student status detection dataset, on-duty sleeping detection dataset, cat and dog binary classification dataset, 9-class vehicle type classification dataset, and snoring vs non-snoring speech recognition binary classification dataset.

创建时间：

2025-06-24

原始信息汇总

BXC_AutoML 数据集概述

基本信息

作者: 北小菜
官网: http://www.beixiaocai.com
联系方式:
- 邮箱: bilibili_bxc@126.com
- QQ: 1402990689
- 微信: bilibili_bxc
开源地址:
- Gitee: https://gitee.com/Vanishi/BXC_AutoML
- GitHub: https://github.com/beixiaocai/BXC_AutoML
哔哩哔哩主页: https://space.bilibili.com/487906612

数据集介绍

训练框架

目标检测框架:
- Train_yolo8: yolo8官方训练框架
- Train_yolo11: yolo11官方训练框架
- Train_rk_yolo5: 适用于瑞芯微设备的yolo5模型训练框架
- Train_rk_yolo8: 适用于瑞芯微设备的yolo8模型训练框架
- Train_rk_yolo11: 适用于瑞芯微设备的yolo11模型训练框架
模型转换工具:
- onnx2rknn: 适用于瑞芯微设备的onnx模型转换为rknn模型工具
分类框架:
- Train_AudioNet: 基于ResNet的语音分类算法训练框架
- Train_ResNet: 基于ResNet的图片分类算法训练框架
- Train_XcFaceNet: 基于MobileNet的人脸特征提取算法训练框架
- Train_PlateNet: 基于PaddleOCR框架和PP-OCRv4开源模型训练商用级高质量车牌识别模型
- Train_CnnLstm: 基于Cnn+Lstm的视频分类算法训练框架
辅助工具:
- labeltools: 样本转换脚本

训练数据集（免费下载）

下载地址: https://pan.quark.cn/s/5dcc2f724bcc
包含数据集:
- 检测密集人群数据集20250625
- 检测明厨亮灶数据集20250625
- 检测攀爬数据集20250624
- 检测抽烟数据集20241012
- 检测打架数据集20241012
- 检测反光衣数据集20241013
- 检测粉尘数据集20241013
- 检测火焰烟雾数据集20241012
- 检测人头和安全帽数据集20241013
- 检测人体5动作-站着-摔倒-坐-深蹲-跑数据集20241012
- 检测学生3状态数据集20241022
- 检测睡岗数据集20241210
- 猫狗2分类数据集: https://pan.quark.cn/s/982dd16cb29d
- 车型9分类数据集: https://pan.quark.cn/s/f698d0e99a4b
- 打鼾+不打鼾语音识别2分类数据集: https://pan.quark.cn/s/4d83dabff0a6

2025/06/29: 新增Train_AudioNet
2025/06/24: 新增Train_PlateNet；优化labeltools/dataset_detect_reset_detect.py
2025/06/03: 新增免费下载的训练数据集
2025/04/30: 新增Train_XcFaceNet；onnx2rknn新增onnx2rknn_ResNet.py
2025/04/29: 更新Train_ResNet，优化纯cpu环境下训练模型的bug
2025/04/05: 更新Train_rk_yolo11/Train_rk_yolo8/Train_rk_yolo5安装文档
2025/03/28: 更新onnx2rknn，新增支持docker版模型转换方式；优化Train_yolo8/README.md，Train_yolo11/README.md
2025/01/06: 新增Train_rk_yolo11；onnx2rknn更新至rk2.3.0，并支持arm和x86两种架构
2024/12/16: 新增Train_yolo11；更新Train_yolo8/Train_yolo11/Train_ResNet推荐数据集链接
2024/11/24: 新增Train_rk_yolo8；优化Train_rk_yolo5和onnx2rknn的使用说明
2024/9/11: 解决Train_yolo8将pt转onnx时错误问题
2024/8/31: 解决Train_yolo8使用pip install ultralytics时错误问题
2024/8/6: 新增样本标注工具labelme的辅助脚本工具；新增样本分割脚本工具
2024/7/30: 新增Train_CnnLstm
2024/4/27: 首次上传

搜集汇总

数据集介绍

构建方式

BXC_AutoML训练数据集的构建依托于多样化的实际应用场景，通过开源工具和脚本实现高效数据采集与标注。数据来源包括视频分割工具提取的帧图像、互联网图片样本下载工具获取的开放数据，以及专业标注工具labelme处理的手动标注样本。标注后的数据通过配套脚本自动转换为YOLO、ResNet等算法所需的标准化格式，并智能分割为训练集和测试集，确保数据结构的规范性和可用性。针对瑞芯微设备的特定需求，数据集还包含ONNX模型转换工具生成的适配格式，形成覆盖检测、分类、特征提取等多任务的完整数据链。

特点

该数据集以垂直领域应用为核心优势，涵盖密集人群检测、安全合规行为识别（如反光衣、抽烟）、工业场景监控（粉尘、火焰）等20余种高价值场景，标注精度达到商用级标准。其突出特点在于深度适配边缘计算设备，提供瑞芯微芯片专用的YOLO系列模型训练框架及RKNN格式转换工具，解决了嵌入式部署的兼容性问题。数据多样性体现在多模态支持上，除图像数据外，还包含语音分类（打鼾识别）、视频行为分析（人体动作）等非结构化数据，且持续通过月度更新纳入如车牌识别、人脸特征提取等新兴任务。

使用方法

使用者可通过夸克网盘获取预置的专题数据集，配合提供的视频教程完成从数据准备到模型部署的全流程。针对不同算法框架，如YOLOv8/v11或ResNet，需按照对应README配置Python环境与依赖库版本。数据加载环节可利用labeltools脚本实现标注格式转换，训练阶段通过调整框架参数适配具体硬件（如纯CPU环境或瑞芯微芯片）。进阶应用可结合onnx2rknn工具链实现模型轻量化，最终部署至视频行为分析系统等实际场景。所有工具链均提供Docker支持，显著降低环境配置复杂度。

背景与挑战

背景概述

BXC_AutoML训练数据集由北小菜团队开发，旨在为计算机视觉和语音识别领域的研究者与开发者提供一套全面的自动化机器学习工具链。该数据集涵盖了多种前沿算法框架，包括YOLO系列目标检测、ResNet图像分类、MobileNet人脸特征提取以及CnnLstm视频分类等。自2024年首次发布以来，通过持续集成瑞芯微芯片适配、模型转换工具优化等创新功能，显著提升了边缘计算场景下的模型部署效率。其配套的标注工具链和免费训练数据资源，为中小规模研究团队降低了人工智能应用开发门槛，在安防监控、工业质检等垂直领域产生了广泛影响。

当前挑战

构建该数据集面临双重技术挑战：在算法层面，需解决跨架构模型适配问题，如YOLO系列模型在瑞芯微芯片上的量化精度损失与推理效率平衡；数据处理环节涉及多模态样本（视频、图像、音频）的标注一致性校验与特征对齐难题。工程实现上，工具链需要兼容不同版本的依赖库（如ONNX与PyTorch的版本冲突），并确保从模型训练到边缘设备部署的端到端流程稳定性。针对实际应用场景，数据集的样本分布需覆盖光照变化、遮挡等复杂条件，这对检测明厨亮灶、反光衣等专业场景的数据标注质量提出了极高要求。

常用场景

经典使用场景

BXC_AutoML训练数据集在计算机视觉领域具有广泛的应用，特别是在目标检测和图像分类任务中表现突出。该数据集通过提供多样化的标注样本，如密集人群、明厨亮灶、攀爬行为等，为YOLO系列模型训练提供了高质量的数据支持。研究人员可以利用这些数据快速构建和优化目标检测模型，提升模型在复杂场景下的识别精度和鲁棒性。

解决学术问题

BXC_AutoML训练数据集有效解决了目标检测和图像分类领域中的数据稀缺问题。通过提供丰富的标注数据和预训练框架，该数据集显著降低了模型训练的入门门槛，加速了学术研究的进展。例如，其提供的火焰烟雾检测、反光衣识别等数据，为安全监控领域的研究提供了重要支持，推动了相关算法的实际落地。

衍生相关工作

围绕BXC_AutoML训练数据集，衍生出了一系列经典研究工作。例如，基于该数据集训练的YOLO系列模型被优化后应用于瑞芯微设备，显著提升了边缘计算场景下的目标检测性能。此外，其提供的ResNet和MobileNet训练框架也为图像分类和人脸识别领域的研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

BXC_AutoML训练数据集

BXC_AutoML 数据集概述

基本信息

数据集介绍

训练框架

训练数据集（免费下载）

相关资源

视频教程

相关工具

更新记录