MVTec-FS Dataset|缺陷检测数据集|少样本学习数据集
收藏MVTec-FS 数据集概述
数据集简介
MVTec-FS 数据集是基于 MVTec AD 数据集改进的版本,专门用于少样本学习研究。该数据集旨在填补缺陷类型分类数据集的空白,适用于少样本缺陷分类任务、少样本目标检测和统一多模态分类。
主要特点
- 使用连通组件算法和手动细化从原始图像级注释创建实例级注释。
- 包含多类异常,并为每个缺陷实例提供校正后的类别标签。
- 适用于 1-shot、3-shot 和 5-shot 学习范式。
- 包含 14 个子数据集,代表具有不同异常特征的各种产品类别。
数据集结构
数据集包含每个子数据集的训练集和测试集。每个子数据集包括异常类别和实例数量,详细信息见 Table 1。
注释细节
- 原始粗糙的图像级注释被细化为实例级注释。
- 使用连通组件算法生成实例掩码。
- 通过手动审查和调整确保每个缺陷实例的类别标签准确。
使用方式
数据集格式
数据集按子数据集组织,每个子数据集包含训练和测试图像的独立目录。每张图像都有一个对应的 json 文件(labeme 格式)。
加载数据集
可以使用常见的深度学习库(如 PyTorch 或 TensorFlow)加载数据集。示例代码片段将在仓库中提供。
少样本学习实验
使用数据集进行少样本学习的步骤:
- 从训练集中采样创建支持集。
- 使用测试集作为查询集进行评估。
数据集支持:
- 1-shot 学习
- 3-shot 学习
- 5-shot 学习
引用
如果在研究中使用 MVTec-FS,请引用: MVREC: A General Few-shot Defect Classification Model Using Multi-View Region-Context (AAAI 2025)
许可证
遵循 MVTec AD,数据集在 CC BY-NC-SA 4.0 下分发。
联系方式
如有关于数据集的问题或疑问,请联系:
- 姓名:LYU Shuai
- 邮箱:shuai.lyu@connect.polyu.hk

PQAref
PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。
huggingface 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
CT-ORG
3D CT, 140 Cases, 6 Categories of Organ Segmentation.
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录