JITTOR-Track1

github2024-08-21 更新2024-08-23 收录

下载链接：

https://github.com/XD-mu/JITTOR-Track1

下载链接

链接失效反馈

官方服务：

资源简介：

比赛数据集由以下四个子数据集构成（Tsinghua-Dog数据集，Caltech-101数据集，Food-101数据集，动物分类自建数据集），共374个类别。对于每个类别，选手可以从训练集中挑出任意4张图片训练自己的模型，当训练结束后，对测试集的每张图片进行分类，输出每张图片的Top5分类。

The competition dataset comprises four sub-datasets: Tsinghua-Dog Dataset, Caltech-101 Dataset, Food-101 Dataset, and a self-built animal classification dataset, totaling 374 categories. For each category, participants may select any 4 images from the training set to train their models. Upon completion of training, participants are required to classify each image in the test set and output the Top-5 classification results for every individual image.

创建时间：

2024-08-20

原始信息汇总

JITTOR-Track1 数据集概述

数据集构成

子数据集：
- Tsinghua-Dog 数据集
- Caltech-101 数据集
- Food-101 数据集
- 动物分类自建数据集
类别总数：374 个类别

数据集使用

训练集：选手可以从每个类别中挑出任意 4 张图片训练模型。
测试集：模型需对测试集的每张图片进行分类，输出每张图片的 Top5 分类。

环境配置

操作系统：Ubuntu >= 16.04 或 Windows Subsystem of Linux（WSL）
Python：版本 >= 3.7
C++编译器：g++（>=5.4.0）或 clang（>=8.0）
GPU 编译器（可选）：nvcc >=10.0
GPU 加速库（可选）：cudnn-dev

方法详细思路

理论公式思路细节介绍

CLIP 模型优化：增加可训练的特征蒸馏模块，使蒸馏后的特征更适合下游任务。
零样本或少样本分类：使用先验知识进行分类，通过在缓存空间中保存训练集的特征信息，利用测试图像、文本描述和训练图像之间的三边嵌入关系。

神经崩溃理论

图像特征优化：诱导图像特征，使类内变异性更小，类间差异性更大。
可训练分类器：设计可训练的分类器，最大化利用并匹配这些特征表示。

特征通道蒸馏

特征选择：利用二进制向量对 CLIP 提取的图像特征进行特征选择。
类内方差计算：选择方差最小的前 Q 个通道，过滤掉多余且信息量较少的通道。
加权标准：将相似性和方差标准与平衡因子混合作为最终衡量标准。

分类嵌入关系

基本分类逻辑：利用测试图像的特征与文本特征进行相似度匹配。
训练集特征利用：利用训练集的图像特征为测试数据的分类提供方向。
可训练残差网络：引入可训练的残差网络进行进一步的适应特征，以达到类神经崩塌。

测试模型复现结果

测试集路径："./Dataset/TestSetB"
输出文件：result.txt

预训练模型类型

模型版本：OpenAI 官方预训练的 ViT-B/32 版本的 CLIP 模型
下载链接：ViT-B-32.pt

最终参数量之和

参数量：1.5M

搜集汇总

数据集介绍

构建方式

JITTOR-Track1数据集由四个子数据集构成，包括Tsinghua-Dog、Caltech-101、Food-101以及一个自建的动物分类数据集，共计374个类别。每个类别从训练集中挑选出任意4张图片用于模型训练，测试集则用于评估模型对每张图片的Top5分类能力。此数据集的设计旨在模拟实际应用中的少样本学习场景，通过有限的训练数据来验证模型的泛化能力和分类精度。

特点

JITTOR-Track1数据集的显著特点在于其多样性和挑战性。首先，数据集涵盖了多个领域的图像，包括动物、食物和自然景观，这使得模型需要具备跨领域的分类能力。其次，每个类别的训练样本数量极少，这要求模型在少样本情况下仍能有效学习并保持高分类准确率。此外，数据集的构建还考虑了实际应用中的数据分布特异性，通过引入特征蒸馏和分类嵌入关系等技术，增强了模型的适应性和鲁棒性。

使用方法

使用JITTOR-Track1数据集时，首先需配置Jittor框架环境，确保满足操作系统、Python版本及编译器等要求。随后，用户可以从训练集中挑选任意4张图片进行模型训练，并在测试集上进行分类评估。测试过程中，模型需输出每张图片的Top5分类结果。此外，数据集提供了预训练的CLIP模型和详细的测试脚本，用户可以通过运行test.py脚本进行模型测试，并根据输出结果进行性能分析和优化。

背景与挑战

背景概述

JITTOR-Track1数据集是由清华大学等机构联合创建的，旨在推动计算机视觉领域的研究。该数据集整合了Tsinghua-Dog、Caltech-101、Food-101以及一个自建的动物分类数据集，共包含374个类别。其核心研究问题在于如何利用有限的训练样本（每个类别仅4张图片）来训练高效的分类模型，并在测试集上实现高精度的Top5分类。这一研究不仅推动了少样本学习技术的发展，还为图像分类领域的研究提供了新的基准。

当前挑战

JITTOR-Track1数据集面临的挑战主要集中在少样本学习的复杂性和数据集的多样性上。首先，如何在极少的训练样本下提取有效的特征并进行准确的分类，是一个技术难题。其次，数据集的多样性，包括不同类型的图像（如动物、食物、建筑等），增加了模型泛化能力的考验。此外，数据集的构建过程中，如何确保每个类别的代表性和数据质量，也是一个不容忽视的挑战。

常用场景

经典使用场景

JITTOR-Track1数据集的经典使用场景主要集中在图像分类任务中，特别是在零样本或少样本分类的挑战性环境中。该数据集通过整合Tsinghua-Dog、Caltech-101、Food-101以及自建的动物分类数据集，为研究者提供了一个多样化的图像分类平台。研究者可以利用这些数据集训练模型，以实现对测试集中图像的Top5分类预测，这对于探索如何在有限数据条件下提升模型性能具有重要意义。

衍生相关工作

JITTOR-Track1数据集的发布催生了一系列相关研究工作，特别是在零样本学习和少样本学习领域。例如，基于该数据集的研究已经提出了多种特征蒸馏和神经崩溃优化方法，这些方法不仅提升了分类性能，还为其他数据集的特征优化提供了参考。此外，该数据集还促进了图像与文本多模态学习的研究，推动了跨模态信息融合技术的发展。

数据集最近研究