pacs

Hugging Face2024-08-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/flwrlabs/pacs

下载链接

链接失效反馈

官方服务：

资源简介：

PACS数据集是一个用于领域泛化的图像数据集，包含四个领域：照片、艺术绘画、卡通和素描。每个领域包含七个类别：狗、大象、长颈鹿、吉他、马、房子和人。总样本数为9,991。数据集的创建是通过交叉Caltech256、Sketchy、TU-Berlin和Google Images中的类别来实现的。数据集的结构包括图像、领域和标签三个特征，训练集有9,991个样本。

The PACS dataset is an image dataset for domain generalization, encompassing four domains: photographs, art paintings, cartoons, and sketches. Each domain contains seven categories: dog, elephant, giraffe, guitar, horse, house, and person. The total number of samples is 9,991. The dataset is constructed by curating categories from Caltech256, Sketchy, TU-Berlin, and Google Images. It includes three core features: images, domain information, and category labels, and the training set consists of 9,991 samples.

创建时间：

2024-08-12

原始信息汇总

数据集卡片 for PACS

概述

PACS 是一个用于领域泛化的图像数据集。它包含四个领域：照片（1,670 张图像）、艺术绘画（2,048 张图像）、卡通（2,344 张图像）和素描（3,929 张图像）。每个领域包含七个类别（标签）：狗、大象、长颈鹿、吉他、马、房子和人。总样本数为 9,991。

数据集详情

PACS 数据集是通过交集创建的，这些交集来自 Caltech256（照片）、Sketchy（照片、素描）、TU-Berlin（素描）和 Google Images（艺术绘画、卡通、照片）中的类别。

数据集来源

网站: https://sketchx.eecs.qmul.ac.uk/downloads/
论文: https://arxiv.org/pdf/1710.03077
Papers with code: https://paperswithcode.com/dataset/pacs

数据集结构

数据实例

训练集的第一个实例如下： json { "image": "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=227x227>", "domain": "art_painting", "label": 0 }

数据分割

json DatasetDict({ train: Dataset({ features: [image, domain, label], num_rows: 9991 }) })

引用

在使用 PACS 数据集时，请引用原始论文。如果使用 Flower Datasets 和 Flower，请引用 Flower。

BibTeX:

原始论文: bibtex @misc{li2017deeperbroaderartierdomain, title={Deeper, Broader and Artier Domain Generalization}, author={Da Li and Yongxin Yang and Yi-Zhe Song and Timothy M. Hospedales}, year={2017}, eprint={1710.03077}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/1710.03077}, }

Flower: bibtex @article{DBLP:journals/corr/abs-2007-14390, author = {Daniel J. Beutel and Taner Topal and Akhil Mathur and Xinchi Qiu and Titouan Parcollet and Nicholas D. Lane}, title = {Flower: {A} Friendly Federated Learning Research Framework}, journal = {CoRR}, volume = {abs/2007.14390}, year = {2020}, url = {https://arxiv.org/abs/2007.14390}, eprinttype = {arXiv}, eprint = {2007.14390}, timestamp = {Mon, 03 Aug 2020 14:32:13 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2007-14390.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

数据集卡片联系

如果您对数据集预处理和准备有任何疑问，请联系 Flower Labs。

搜集汇总

数据集介绍

构建方式

PACS数据集是一个专为领域泛化设计的图像数据集，其构建过程整合了来自多个知名数据源的图像数据。具体而言，该数据集通过交叉Caltech256（照片）、Sketchy（照片、素描）、TU-Berlin（素描）以及Google Images（艺术绘画、卡通、照片）中的类别，形成了四个独特的领域：照片、艺术绘画、卡通和素描。每个领域包含七个类别，涵盖了狗、大象、长颈鹿、吉他、马、房屋和人物等多样化的图像内容。

使用方法

PACS数据集的使用方法主要围绕领域泛化任务展开。研究者可以通过Hugging Face平台直接访问该数据集，并利用Flower Datasets工具进行数据下载和分区。具体操作包括安装Flower Datasets包，并通过FederatedDataset类加载数据集。此外，数据集支持IID分区，便于在联邦学习环境中进行实验。通过这种方式，研究者可以轻松地将PACS数据集应用于领域泛化模型的训练与评估。

背景与挑战

背景概述

PACS数据集由Da Li、Yongxin Yang、Yi-Zhe Song和Timothy M. Hospedales等研究人员于2017年提出，旨在解决图像分类中的领域泛化问题。该数据集整合了来自Caltech256、Sketchy、TU-Berlin和Google Images等多个来源的图像数据，涵盖了四个不同的领域：照片、艺术绘画、卡通和素描。每个领域包含七个类别，如狗、大象、长颈鹿等，总样本量为9991张图像。PACS数据集的创建为计算机视觉领域的研究提供了重要的基准，特别是在跨领域图像分类任务中，推动了领域泛化算法的研究与发展。

当前挑战

PACS数据集在解决领域泛化问题时面临多重挑战。首先，不同领域之间的图像风格差异显著，例如素描与照片之间的视觉特征差异较大，这要求模型具备强大的跨领域适应能力。其次，数据集的构建过程中，如何确保不同领域之间的类别平衡以及数据质量的一致性也是一个技术难点。此外，由于领域泛化任务本身具有较高的复杂性，模型在未见过的领域上表现不佳的问题依然存在，这进一步增加了研究的难度。这些挑战不仅推动了领域泛化算法的创新，也为未来的研究提供了丰富的探索空间。

常用场景

经典使用场景

PACS数据集在图像分类和领域泛化研究中占据重要地位。其经典使用场景包括在多个视觉领域（如照片、艺术绘画、卡通和素描）中进行跨领域图像分类任务。研究者通过该数据集评估模型在不同视觉风格下的泛化能力，从而推动计算机视觉领域的前沿研究。

解决学术问题

PACS数据集解决了图像分类领域中的领域泛化问题。传统图像分类模型通常在单一领域表现良好，但在跨领域场景中性能显著下降。PACS通过提供多个视觉领域的标注数据，帮助研究者开发能够在不同领域间保持稳定性能的模型，从而提升模型的鲁棒性和适应性。

实际应用

在实际应用中，PACS数据集被广泛用于开发跨领域图像识别系统。例如，在医疗影像分析中，模型需要适应不同设备或成像风格的数据；在自动驾驶领域，车辆视觉系统需应对不同天气和光照条件下的图像。PACS为这些场景提供了重要的基准数据，推动了相关技术的落地。

数据集最近研究