five

BJTU Visual Impression Dataset|图像检索数据集|机器学习数据集

收藏
github2024-06-03 更新2024-06-06 收录
图像检索
机器学习
下载链接:
https://github.com/Luchicken/Fine-tuning-a-Pre-trained-Model-for-Image-Retrieval
下载链接
链接失效反馈
资源简介:
北京交通大学视觉印象数据集,包含6445张图像,分为25个类别,用于图像检索模型的训练和评估。

The Beijing Jiaotong University Visual Impression Dataset comprises 6,445 images, categorized into 25 classes, designed for the training and evaluation of image retrieval models.
创建时间:
2024-05-30
原始信息汇总

数据集概述

数据集名称

  • 交大视觉印象数据集2024

数据集准备

  • 数据结构 bash ${DATA_ROOT} ├── base │ ├── fh │ ├── mh │ ... │ ├── zx │ ├── util_pic ├── query │ ├── fh │ ├── mh │ ... │ ├── zx

  • 默认数据路径

    • ${DATA_ROOT} 默认设置为 ./data
  • 数据处理

    • 运行 split.py 分割 util_pic 中的图像,按标签分为17个类别。
    • 删除 util_pic
  • 训练数据集

    • 包含 6445 张图像,分为 25 个类别。

数据集使用

  • 模型微调

    • AlexNet w/o latent layer shell python finetune.py --model alexnet --batchsize 64 --lr 0.001 --num_epochs 300 --data ./your/data/path --seed 42

    • AlexNet w/ latent layer shell python finetune.py --model alexnet --batchsize 64 --lr 0.001 --num_epochs 300 --data ./your/data/path --seed 42 --latent_layer --latent_size 48

    • ResNet-50 w/o latent layer shell python finetune.py --model resnet --batchsize 64 --lr 0.001 --num_epochs 300 --data ./your/data/path --seed 42

  • 图像检索

    • AlexNet w/o latent layer shell python retrieval.py --model alexnet --data ./your/data/path --dist [cos/euclidean] [--plot]

    • AlexNet w/ latent layer shell python retrieval.py --model alexnet --data ./your/data/path --latent_layer --dist [cos/euclidean] [--plot]

    • ResNet-50 w/o latent layer shell python retrieval.py --model resnet --data ./your/data/path --dist [cos/euclidean] [--plot]

结果示例

  • AlexNet w/o latent layer (cosine_similarity)

    • 结果图像位于 ./plots/your_model_name/20 中的 08.png
    • 性能指标图像位于 ./plots/your_model_name 中的 P@K.png
  • AlexNet w/o latent layer (euclidean_dist)

    • 性能指标图像位于 ./plots/your_model_name 中的 P@K-1717172575382-1.png
  • AlexNet w/ latent layer (binary + cosine_similarity)

    • 结果图像位于 ./plots/your_model_name/20 中的 08.png
    • 性能指标图像位于 ./plots/your_model_name 中的 P@K.png
  • AlexNet w/ latent layer (binary + euclidean_dist)

    • 性能指标图像位于 ./plots/your_model_name 中的 P@K-1717172715739-3.png
  • ResNet-50 w/o latent layer (cosine_similarity)

    • 结果图像位于 ./plots/your_model_name/60 中的 16.png
    • 性能指标图像位于 ./plots/your_model_name 中的 P@K.png
  • ResNet-50 w/o latent layer (euclidean_dist)

    • 性能指标图像位于 ./plots/your_model_name 中的 P@K-1717172893845-5.png
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建BJTU视觉印象数据集时,首先将数据放置在指定的目录结构中,包括基础数据和查询数据。通过运行`split.py`脚本,将`util_pic`目录中的图像按标签分类,生成17个类别。随后,删除`util_pic`目录,最终形成包含6445张图像的训练数据集,涵盖25个类别。
特点
该数据集的显著特点在于其丰富的图像类别和数量,共计6445张图像分布在25个类别中,为深度学习模型提供了广泛的学习样本。此外,数据集的结构设计便于图像检索任务的实施,支持多种模型如AlexNet和ResNet-50的微调与检索实验。
使用方法
使用该数据集时,首先需准备环境并激活相应的conda环境。随后,通过运行`finetune.py`脚本,可以选择不同的模型(如AlexNet或ResNet-50)进行微调,设置批量大小、学习率和训练轮次等参数。检索阶段,可通过添加`--plot`选项生成检索结果图像,并根据需要选择不同的距离度量方法(如余弦相似度或欧几里得距离)。
背景与挑战
背景概述
北京交通大学视觉印象数据集(BJTU Visual Impression Dataset)是由北京交通大学于2024年春季创建,主要用于《计算机视觉基础》课程的教学与研究。该数据集包含6445张图像,涵盖25个类别,旨在支持图像检索任务的训练与评估。数据集的创建不仅为学术研究提供了丰富的资源,也为图像检索领域的技术发展奠定了基础。
当前挑战
该数据集在构建过程中面临的主要挑战包括:1) 数据集的标签分类复杂,需确保每个类别的图像具有代表性和多样性;2) 数据集的规模较大,处理和存储这些图像需要高效的计算资源和存储解决方案;3) 图像检索任务中,如何有效地提取和比较图像特征,以提高检索准确性,是当前研究的重要课题。此外,数据集的更新和维护也需要持续的技术支持,以确保其长期可用性和有效性。
常用场景
经典使用场景
BJTU视觉印象数据集在图像检索领域展现出其经典应用价值。该数据集通过提供6445张图像,涵盖25个类别,为研究人员提供了丰富的视觉内容,用于训练和验证图像检索模型。特别是,数据集支持AlexNet和ResNet-50等深度学习模型的微调,通过无潜在层和有潜在层的配置,实现高效的图像检索。此外,数据集还支持基于余弦相似度和欧几里得距离的检索方法,进一步增强了其在实际应用中的灵活性和实用性。
衍生相关工作
BJTU视觉印象数据集的发布和应用催生了多项相关研究工作。例如,基于该数据集的图像检索模型在多个国际会议和期刊上发表,如CVPR Workshop 2015上的深度学习二进制哈希码用于快速图像检索的研究。此外,数据集还激发了关于图像特征提取、相似度计算和大规模图像检索系统设计的深入探讨。这些研究不仅提升了图像检索技术的理论水平,也为实际应用提供了有力的技术支持。
数据集最近研究
最新研究方向
在计算机视觉领域,BJTU Visual Impression Dataset的最新研究方向主要集中在图像检索技术的优化与创新。该数据集通过提供丰富的图像类别和数量,为研究人员提供了宝贵的资源,以探索和改进现有的图像检索模型。特别是,结合AlexNet和ResNet-50等深度学习模型,研究人员正在深入研究如何通过无潜在层和有潜在层的模型配置,提升图像检索的准确性和效率。此外,通过引入二进制哈希码等技术,研究者们致力于在保持高检索性能的同时,减少计算资源的消耗,这对于实际应用中的大规模图像检索具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Global Administrative Areas (GADM)

GADM是一个全球行政区域数据集,提供了全球各个国家和地区的行政区划边界数据,包括国家、省、市、县等不同层级的行政区域。数据集包含了详细的边界信息,适用于地理信息系统(GIS)和空间分析应用。

gadm.org 收录