Office-Home

Hugging Face2024-07-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Voxel51/Office-Home

下载链接

链接失效反馈

官方服务：

资源简介：

Office-Home数据集是为了评估深度学习对象识别领域适应算法的性能而创建的。该数据集包含来自四个不同领域的图像：艺术图像、剪贴画、产品图像和现实世界图像。每个领域都包含65个通常在办公室和家庭环境中找到的对象类别的图像。数据集通过从多个搜索引擎和在线图像目录中使用Python网络爬虫收集了超过100,000张初始图像。经过筛选以确保所需对象的存在并保持每个类别至少有一定数量的图像，最终版本包含约15,500张图像。该数据集由Jose Eusebio策划，并采用'其他'许可证。

The Office-Home dataset was created to evaluate the performance of domain adaptation algorithms in the field of deep learning-based object recognition. The dataset contains images from four distinct domains: artistic images, clip art, product images, and real-world images. Each domain includes images of 65 object categories commonly found in office and home environments. Over 100,000 initial images were collected via Python web crawling from multiple search engines and online image directories. After filtering to ensure the presence of target objects and maintain a minimum number of images per category, the final version of the dataset contains approximately 15,500 images. This dataset was curated by Jose Eusebio and is released under the 'Other' license.

创建时间：

2024-07-02

原始信息汇总

Office-Home 数据集概述

数据集描述

Office-Home 数据集旨在评估使用深度学习的对象识别领域自适应算法。该数据集包含来自四个不同领域的图像：艺术图像、剪贴画、产品图像和现实世界图像。每个领域包含65个通常在办公室和家庭环境中找到的对象类别。

创建者： Jose Eusebio
语言： 英语
许可证： 其他

数据集来源

主页： https://www.hemanthdv.org/officeHomeDataset.html
论文： Deep Hashing Network for Unsupervised Domain Adaptation

数据集创建

源数据

数据集中的图像通过Python网络爬虫从多个搜索引擎和在线图像目录中收集。最初搜索了大约120个不同的对象，生成了超过100,000张图像。这些图像经过过滤，确保所需对象在图片中，并且每个类别至少有一定数量的图像。最新版本的数据集包含约15,500张图像，来自65个不同的类别。

数据统计

领域	最小数量	最小尺寸	最大尺寸	分类准确率
艺术	15	117 ( imes) 85 pix.	4384 ( imes) 2686 pix.	44.99 (pm) 1.85
剪贴画	39	18 ( imes) 18 pix.	2400 ( imes) 2400 pix.	53.95 (pm) 1.45
产品	38	75 ( imes) 63 pix.	2560 ( imes) 2560 pix.	66.41 (pm) 1.18
现实世界	23	88 ( imes) 80 pix.	6500 ( imes) 4900 pix.	59.70 (pm) 1.04

对象类别

数据集包含65个对象类别，包括：

plaintext Alarm Clock, Backpack, Batteries, Bed, Bike, Bottle, Bucket, Calculator, Calendar, Candles, Chair, Clipboards, Computer, Couch, Curtains, Desk Lamp, Drill, Eraser, Exit Sign, Fan, File Cabinet, Flipflops, Flowers, Folder, Fork, Glasses, Hammer, Helmet, Kettle, Keyboard, Knives, Lamp Shade, Laptop, Marker, Monitor, Mop, Mouse, Mug, Notebook, Oven, Pan, Paper Clip, Pen, Pencil, Postit Notes, Printer, Push Pin, Radio, Refrigerator, ruler, Scissors, Screwdriver, Shelf, Sink, Sneakers, Soda, Speaker, Spoon, Table, Telephone, Toothbrush, Toys, Trash Can, TV, Webcam

引用

BibTeX:

bibtex @inproceedings{venkateswara2017deep, title={Deep hashing network for unsupervised domain adaptation}, author={Venkateswara, Hemanth and Eusebio, Jose and Chakraborty, Shayok and Panchanathan, Sethuraman}, booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition}, pages={5018--5027}, year={2017} }

搜集汇总

数据集介绍

构建方式

Office-Home数据集的构建过程采用了自动化与人工筛选相结合的方式。首先，通过Python编写的网络爬虫从多个搜索引擎和在线图像目录中收集了超过10万张图像，涵盖了120多个对象类别。随后，研究人员对这些图像进行了严格的筛选，确保每张图像中均包含目标对象，并对类别进行了平衡处理，确保每个类别至少包含一定数量的图像。最终，数据集包含了来自4个不同领域（艺术图像、剪贴画、产品图像和真实世界图像）的15,588张图像，涵盖65个常见办公和家庭场景中的对象类别。

特点

Office-Home数据集以其多样性和广泛的应用场景而著称。数据集包含四个独特的图像领域：艺术图像、剪贴画、产品图像和真实世界图像，每个领域均涵盖了65个对象类别。这种多领域的特性使其成为评估领域自适应算法的理想选择。此外，数据集的图像分辨率范围广泛，从18×18像素到6500×4900像素不等，为研究提供了丰富的视觉信息。数据集的分类任务基于VGG-F深度网络提取的特征，使用线性SVM分类器进行5折交叉验证，分类准确率在不同领域中表现出显著差异，进一步凸显了领域间的挑战性。

使用方法

使用Office-Home数据集时，首先需要安装FiftyOne库，该库提供了便捷的数据加载和可视化功能。通过Python脚本，用户可以轻松地从Hugging Face Hub加载数据集，并利用FiftyOne的交互式应用程序进行数据探索和分析。加载数据集时，用户可以通过设置参数（如`max_samples`）来控制加载的样本数量。此外，数据集支持多种深度学习框架，用户可以根据需求提取图像特征或训练领域自适应模型。数据集的多样性和丰富的标注信息使其成为计算机视觉研究中不可或缺的资源。

背景与挑战

背景概述

Office-Home数据集由Jose Eusebio等人于2017年创建，旨在评估深度学习在对象识别领域的域适应算法。该数据集包含来自四个不同领域的图像：艺术图像、剪贴画、产品图像和真实世界图像，涵盖了65个常见于办公室和家庭环境中的对象类别。数据集的设计初衷是为了解决跨域图像分类问题，特别是在源域和目标域之间存在显著差异时，如何提升模型的泛化能力。该数据集在计算机视觉领域具有重要影响力，尤其是在域适应和无监督学习的研究中，为相关算法提供了丰富的实验数据。

当前挑战

Office-Home数据集面临的主要挑战包括两个方面。首先，在领域问题方面，数据集旨在解决跨域图像分类的难题，即如何在不同域之间实现有效的知识迁移。由于域间差异显著（如艺术图像与真实世界图像的风格差异），模型在跨域分类任务中往往表现不佳，这要求算法具备更强的泛化能力和域适应能力。其次，在构建过程中，数据集的创建者通过Python网络爬虫从多个搜索引擎和在线图像目录中收集了超过10万张图像，随后进行了严格的筛选和过滤，以确保每张图像都包含目标对象且类别分布均衡。这一过程不仅耗时耗力，还需要解决图像质量、版权问题以及类别不平衡等技术难题。

常用场景

经典使用场景

Office-Home数据集广泛应用于图像分类和领域自适应算法的评估中。该数据集包含来自四个不同领域的图像：艺术图像、剪贴画、产品图像和现实世界图像，涵盖了65个常见的办公和家庭物品类别。研究人员通常利用该数据集来测试和验证深度学习模型在不同领域间的泛化能力，尤其是在源域和目标域之间存在显著差异的情况下。

实际应用

在实际应用中，Office-Home数据集被广泛用于开发智能家居和办公自动化系统。例如，通过训练模型识别不同环境中的物品，可以实现智能家居设备对家庭环境的自动感知和响应。此外，该数据集还可用于开发跨领域的图像识别系统，帮助企业在不同场景下实现高效的物品管理和分类。

衍生相关工作

基于Office-Home数据集，许多经典的研究工作得以展开。例如，Venkateswara等人提出的深度哈希网络（Deep Hashing Network）在无监督领域自适应任务中取得了显著成果。此外，该数据集还催生了大量关于跨领域图像分类和迁移学习的研究，推动了领域自适应算法的发展，并为后续的研究提供了丰富的实验数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集