five

ImageNet-1k|图像分类数据集|计算机视觉数据集

收藏
github2024-10-07 更新2024-10-08 收录
图像分类
计算机视觉
下载链接:
https://github.com/anto18671/efficientvit-b4.r256
下载链接
链接失效反馈
资源简介:
ImageNet-1k数据集包含1.2百万张图像,涵盖1000个类别。该数据集通过Hugging Face的`datasets`库自动加载。
创建时间:
2024-10-07
原始信息汇总

EfficientViT-B4 Pretraining on ImageNet-1k

数据集

  • 名称: ImageNet-1k
  • 描述: 包含1.2百万张图像,涵盖1000个类别。
  • 加载方式: 使用Hugging Face的datasets库自动加载。

预训练

  • 模型: EfficientViT-B4
  • 输入尺寸: 256x256像素
  • 训练方式: 从零开始训练,无初始权重。
  • 优化器: AdamW
  • 学习率: 1e-4(带指数衰减)
  • 批量大小: 42(可根据GPU内存调整)
  • 梯度累积: 3步
  • 训练轮数: 16
  • 数据增强: 调整大小、颜色抖动、随机水平翻转和归一化

环境要求

  • GPU支持: 需要NVIDIA GPU,CUDA版本12.4(或兼容版本),CuDNN版本9。
  • Hugging Face认证: 需要Hugging Face令牌以访问ImageNet-1k数据集。

训练脚本

  • 启动脚本: pre.py
  • 功能: 初始化模型、设置数据管道、配置优化器和学习率调度器、开始或恢复训练。

Docker环境

  • Docker镜像: ghcr.io/anto18671/efficientvit-b4.r256:latest
  • 运行命令: docker run --gpus all --env HUGGINGFACE_TOKEN=<your_huggingface_token> ghcr.io/anto18671/efficientvit-b4.r256:latest

检查点

  • 最佳模型: 自动保存,验证准确率提高时。
  • 最后检查点: 每个epoch结束时保存,以便从最近状态恢复。

验证

  • 验证频率: 每个epoch结束时进行验证。
  • 评估指标: 损失和准确率。

许可证

  • 许可证类型: MIT License
AI搜集汇总
数据集介绍
main_image_url
构建方式
ImageNet-1k数据集的构建基于大规模图像数据的收集与分类,涵盖了1000个类别,共计120万张图像。该数据集通过Hugging Face的`datasets`库自动加载,确保了数据的高效处理与访问。其构建过程严格遵循图像分类的标准,确保每个类别的图像数量均衡,从而为深度学习模型的训练提供了高质量的数据基础。
特点
ImageNet-1k数据集以其庞大的规模和多样性著称,包含了1000个不同类别的图像,每类图像数量丰富,确保了训练数据的广泛覆盖。此外,该数据集的图像质量高,分辨率统一,适合用于各种视觉任务的模型训练。其多样性和高质量使得ImageNet-1k成为计算机视觉领域广泛使用的基准数据集。
使用方法
使用ImageNet-1k数据集进行模型训练时,首先需通过Hugging Face的`datasets`库加载数据集,并确保环境配置满足GPU支持、PyTorch安装等要求。训练过程中,可通过调整批量大小、优化器参数等来优化模型性能。此外,数据集支持从Docker环境中运行,简化了部署流程,确保了训练过程的高效与稳定。
背景与挑战
背景概述
ImageNet-1k数据集,作为计算机视觉领域的重要基准,由斯坦福大学李飞飞教授团队于2009年创建。该数据集包含1.2百万张图像,涵盖1000个类别,极大地推动了图像分类、目标检测等任务的研究进展。其丰富的图像内容和精细的类别划分,为深度学习模型提供了宝贵的训练资源,显著提升了模型在实际应用中的表现。ImageNet-1k不仅促进了学术研究,还在工业界产生了深远影响,成为评估和优化视觉处理模型性能的标准数据集。
当前挑战
尽管ImageNet-1k数据集在图像分类领域取得了显著成就,但其构建和应用过程中仍面临诸多挑战。首先,数据集的规模庞大,导致数据存储和处理成本高昂,对计算资源提出了严格要求。其次,图像的多样性和复杂性使得数据标注和预处理工作异常繁琐,需要高效的自动化工具和算法支持。此外,随着深度学习模型的不断演进,如何持续优化和更新数据集以适应新的研究需求,也是一个亟待解决的问题。最后,数据集的广泛使用也引发了关于数据隐私和版权的伦理问题,需要在应用中加以重视和规范。
常用场景
经典使用场景
ImageNet-1k数据集在计算机视觉领域中被广泛用于图像分类任务的预训练。其经典使用场景包括但不限于:通过大规模的图像数据训练深度学习模型,以提升模型在图像识别、物体检测和语义分割等任务中的表现。该数据集的丰富类别和高质量图像使其成为评估和改进视觉模型的理想选择。
实际应用
在实际应用中,ImageNet-1k数据集被广泛用于训练和验证各种视觉模型,如自动驾驶、医学影像分析和安防监控等。通过预训练模型,这些应用能够更准确地识别和分类图像中的对象,从而提高系统的整体性能和可靠性。此外,该数据集还促进了跨领域的技术融合,推动了人工智能技术的普及和应用。
衍生相关工作
基于ImageNet-1k数据集,许多经典工作得以衍生和发展。例如,AlexNet、VGG、ResNet等深度学习模型均在该数据集上进行了预训练,并取得了显著的性能提升。这些模型不仅在学术研究中被广泛引用,还在工业界得到了实际应用。此外,该数据集还催生了大量关于数据增强、模型优化和迁移学习等方向的研究,进一步推动了计算机视觉领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录