pacs|图像识别数据集|领域泛化数据集

huggingface2024-08-12 更新2024-12-12 收录

图像识别

领域泛化

下载链接：

https://huggingface.co/datasets/flwrlabs/pacs

下载链接

链接失效反馈

资源简介：

PACS数据集是一个用于领域泛化的图像数据集，包含四个领域：照片、艺术绘画、卡通和素描。每个领域包含七个类别：狗、大象、长颈鹿、吉他、马、房子和人。总样本数为9,991。数据集的创建是通过交叉Caltech256、Sketchy、TU-Berlin和Google Images中的类别来实现的。数据集的结构包括图像、领域和标签三个特征，训练集有9,991个样本。

创建时间：

2024-08-12

原始信息汇总

数据集卡片 for PACS

概述

PACS 是一个用于领域泛化的图像数据集。它包含四个领域：照片（1,670 张图像）、艺术绘画（2,048 张图像）、卡通（2,344 张图像）和素描（3,929 张图像）。每个领域包含七个类别（标签）：狗、大象、长颈鹿、吉他、马、房子和人。总样本数为 9,991。

数据集详情

PACS 数据集是通过交集创建的，这些交集来自 Caltech256（照片）、Sketchy（照片、素描）、TU-Berlin（素描）和 Google Images（艺术绘画、卡通、照片）中的类别。

数据集来源

网站: https://sketchx.eecs.qmul.ac.uk/downloads/
论文: https://arxiv.org/pdf/1710.03077
Papers with code: https://paperswithcode.com/dataset/pacs

数据集结构

数据实例

训练集的第一个实例如下： json { "image": "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=227x227>", "domain": "art_painting", "label": 0 }

数据分割

json DatasetDict({ train: Dataset({ features: [image, domain, label], num_rows: 9991 }) })

引用

在使用 PACS 数据集时，请引用原始论文。如果使用 Flower Datasets 和 Flower，请引用 Flower。

BibTeX:

原始论文: bibtex @misc{li2017deeperbroaderartierdomain, title={Deeper, Broader and Artier Domain Generalization}, author={Da Li and Yongxin Yang and Yi-Zhe Song and Timothy M. Hospedales}, year={2017}, eprint={1710.03077}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/1710.03077}, }

Flower: bibtex @article{DBLP:journals/corr/abs-2007-14390, author = {Daniel J. Beutel and Taner Topal and Akhil Mathur and Xinchi Qiu and Titouan Parcollet and Nicholas D. Lane}, title = {Flower: {A} Friendly Federated Learning Research Framework}, journal = {CoRR}, volume = {abs/2007.14390}, year = {2020}, url = {https://arxiv.org/abs/2007.14390}, eprinttype = {arXiv}, eprint = {2007.14390}, timestamp = {Mon, 03 Aug 2020 14:32:13 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2007-14390.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

数据集卡片联系

如果您对数据集预处理和准备有任何疑问，请联系 Flower Labs。

AI搜集汇总

数据集介绍

构建方式

PACS数据集是一个专为领域泛化设计的图像数据集，其构建过程整合了来自多个知名数据源的图像数据。具体而言，该数据集通过交叉Caltech256（照片）、Sketchy（照片、素描）、TU-Berlin（素描）以及Google Images（艺术绘画、卡通、照片）中的类别，形成了四个独特的领域：照片、艺术绘画、卡通和素描。每个领域包含七个类别，涵盖了狗、大象、长颈鹿、吉他、马、房屋和人物等多样化的图像内容。

使用方法

PACS数据集的使用方法主要围绕领域泛化任务展开。研究者可以通过Hugging Face平台直接访问该数据集，并利用Flower Datasets工具进行数据下载和分区。具体操作包括安装Flower Datasets包，并通过FederatedDataset类加载数据集。此外，数据集支持IID分区，便于在联邦学习环境中进行实验。通过这种方式，研究者可以轻松地将PACS数据集应用于领域泛化模型的训练与评估。

背景与挑战

背景概述

PACS数据集由Da Li、Yongxin Yang、Yi-Zhe Song和Timothy M. Hospedales等研究人员于2017年提出，旨在解决图像分类中的领域泛化问题。该数据集整合了来自Caltech256、Sketchy、TU-Berlin和Google Images等多个来源的图像数据，涵盖了四个不同的领域：照片、艺术绘画、卡通和素描。每个领域包含七个类别，如狗、大象、长颈鹿等，总样本量为9991张图像。PACS数据集的创建为计算机视觉领域的研究提供了重要的基准，特别是在跨领域图像分类任务中，推动了领域泛化算法的研究与发展。

当前挑战

PACS数据集在解决领域泛化问题时面临多重挑战。首先，不同领域之间的图像风格差异显著，例如素描与照片之间的视觉特征差异较大，这要求模型具备强大的跨领域适应能力。其次，数据集的构建过程中，如何确保不同领域之间的类别平衡以及数据质量的一致性也是一个技术难点。此外，由于领域泛化任务本身具有较高的复杂性，模型在未见过的领域上表现不佳的问题依然存在，这进一步增加了研究的难度。这些挑战不仅推动了领域泛化算法的创新，也为未来的研究提供了丰富的探索空间。

常用场景

经典使用场景

PACS数据集在图像分类和领域泛化研究中占据重要地位。其经典使用场景包括在多个视觉领域（如照片、艺术绘画、卡通和素描）中进行跨领域图像分类任务。研究者通过该数据集评估模型在不同视觉风格下的泛化能力，从而推动计算机视觉领域的前沿研究。

解决学术问题

PACS数据集解决了图像分类领域中的领域泛化问题。传统图像分类模型通常在单一领域表现良好，但在跨领域场景中性能显著下降。PACS通过提供多个视觉领域的标注数据，帮助研究者开发能够在不同领域间保持稳定性能的模型，从而提升模型的鲁棒性和适应性。

实际应用

在实际应用中，PACS数据集被广泛用于开发跨领域图像识别系统。例如，在医疗影像分析中，模型需要适应不同设备或成像风格的数据；在自动驾驶领域，车辆视觉系统需应对不同天气和光照条件下的图像。PACS为这些场景提供了重要的基准数据，推动了相关技术的落地。

数据集最近研究

最新研究方向

近年来，PACS数据集在领域泛化（Domain Generalization, DG）研究中占据了重要地位。随着深度学习在计算机视觉领域的广泛应用，模型在不同领域间的泛化能力成为研究热点。PACS数据集通过整合来自不同领域的图像数据（如照片、艺术绘画、卡通和素描），为研究者提供了一个多领域、多类别的基准测试平台。当前的研究方向主要集中在如何通过跨领域学习策略提升模型的泛化性能，尤其是在联邦学习（Federated Learning, FL）框架下的应用。通过结合联邦学习，研究者能够在保护数据隐私的前提下，利用分布式数据训练出更具鲁棒性的模型。此外，PACS数据集还被广泛用于评估领域自适应（Domain Adaptation）和元学习（Meta-Learning）等前沿技术的效果，推动了计算机视觉领域在跨领域泛化问题上的深入探索。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务，涉及生物医学领域。数据集包含两个配置：text-corpus和question-answer-passages，分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集，并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录