wltjr1007/DomainNet

Name: wltjr1007/DomainNet
Creator: wltjr1007
Published: 2024-01-11 07:57:51
License: 暂无描述

Hugging Face2024-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wltjr1007/DomainNet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含图像分类和零样本图像分类任务的数据。数据集的特征包括图像、标签、域和图像路径。标签和域都有详细的类别名称。数据集来源于WILDS，并且包含了一些受版权保护的材料，这些材料仅供学术研究使用。

提供机构：

wltjr1007

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: 其他
数据量: 100K<n<1M
任务类别:
- 图像分类
- 零样本图像分类
任务ID:
- 多类图像分类
- 多类分类
名称: DomainNet

数据集结构

特征:
- 图像: 数据类型为图像
- 标签: 数据类型为类别标签，包含345个类别，如：
  - 0: aircraft_carrier
  - 1: airplane
  - ...
  - 344: zigzag
- 域: 数据类型为类别标签，包含6个类别，如：
  - 0: clipart
  - 1: infograph
  - ...
  - 5: sketch
- 图像路径: 数据类型为字符串

数据集分割

训练集:
- 字节数: 1098474093.3600001
- 样本数: 409832
测试集:
- 字节数: 471724034.589
- 样本数: 176743

数据集大小

下载大小: 18521436207
数据集大小: 1570198127.9490001

配置

默认配置:
- 训练集: 路径为 data/train-*
- 测试集: 路径为 data/test-*

搜集汇总

数据集介绍

构建方式

DomainNet数据集的构建采用了一种多样化的图像分类方式，涵盖了从剪贴画、信息图表、绘画、快速绘图到真实图片和素描等多种领域的图像。数据集通过精心挑选和标注，形成了具有344个分类标签的丰富资源库，每个标签对应不同的物体和场景，旨在为多领域图像识别提供全面的训练和测试数据。

使用方法

使用DomainNet数据集时，研究者可以根据不同的任务需求，选择合适的领域进行模型训练和评估。数据集提供了训练集和测试集，可以通过HuggingFace的库直接加载使用。用户需要遵循数据集的使用条款，尊重版权，并在非商业研究和教育目的下使用这些数据。

背景与挑战

背景概述

DomainNet数据集，诞生于2018年，由Boston University的研究团队开发，旨在为零样本图像分类任务提供支持。该数据集包含来自不同领域的图像，如剪贴画、信息图表、绘画、快速绘图、真实场景和草图等，涵盖了日常生活和艺术创作等多个方面。它包含超过百万张图像，跨越300多个类别，对促进计算机视觉领域的研究，尤其是零样本学习的发展，具有重要价值。

当前挑战

常用场景

经典使用场景

在计算机视觉研究领域，DomainNet数据集的经典使用场景主要在于图像分类任务中评估模型对于不同领域的泛化能力。该数据集包含了来自不同来源的图像，如剪贴画、信息图表、绘画、快速绘图、真实图片和草图等，为研究者提供了一个多元化的测试平台，以检验模型在面临领域自适应挑战时的表现。

解决学术问题

DomainNet数据集解决了学术研究中关于领域自适应和零样本学习的问题。它为研究者提供了一个跨领域的图像分类基准，有助于推动领域自适应技术的发展，尤其是在模型从源领域迁移到目标领域时的性能评估和优化。此外，数据集中的零样本分类任务也促进了新型算法的研究，这些算法能够在没有看到任何训练样本的情况下识别新的类别。

实际应用

在实际应用中，DomainNet数据集可以被用于开发和评估那些需要在多种视觉环境中工作的机器学习模型。例如，自动驾驶系统中的视觉识别组件可以从该数据集中受益，以提高其在不同场景下的鲁棒性和准确性。此外，多媒体内容分析和智能监控系统也可以利用DomainNet进行优化，以更好地理解和分类复杂的视觉数据。

数据集最近研究