apple/flair

Name: apple/flair
Creator: apple
Published: 2024-05-27 21:22:51
License: 暂无描述

Hugging Face2024-05-27 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/apple/flair

下载链接

链接失效反馈

官方服务：

资源简介：

FLAIR是一个包含约430,000张图像的大型标注图像数据集，用于在联邦学习中进行基准测试。该数据集来自51,000名Flickr用户，旨在更好地反映实际中的联邦学习问题。图像由人工标注，并从超过1,600个细粒度标签的分类法中分配标签。数据集包括细粒度和粗粒度标签，支持不同复杂度的机器学习任务。数据集按用户ID分为8:1:1的训练、验证和测试集，每个集合的用户和图像数量明确。此外，数据集结构详细，包括用户ID、图像ID、标签和分区等字段，便于进行联邦学习实验。

提供机构：

apple

原始信息汇总

Federated Learning Annotated Image Repository (FLAIR)

概述

FLAIR是一个大型标注图像数据集，用于在联邦学习（FL）和隐私保护机器学习任务中进行基准测试。该数据集包含约430,000张来自51,000名Flickr用户的图像，旨在更好地反映实际联邦学习问题，并促进该领域的研究。

图像标签

这些图像由人工标注，并从超过1,600个细粒度标签的分类法中分配标签。所有主要主题在图像中都被标记，因此图像可能有多个标签。分类法是分层的，细粒度标签可以映射到17个粗粒度类别。数据集包括细粒度和粗粒度标签，以便研究人员可以调整机器学习任务的复杂性。

用户标签及其在联邦学习中的应用

我们使用图像元数据提取艺术家名称/ID，以创建用于联邦学习的用户数据集。虽然机器学习的优化算法通常假设每个示例都是从分布中独立采样的，但联邦学习应用在几个方面偏离了这一假设，这些差异在我们的用户标注示例中得到反映。不同用户拥有的图像数量以及他们图像集合中代表的类别数量不同。此外，同一类别但由不同用户拍摄的图像可能存在一些分布偏移。这些数据集的特性更好地反映了联邦学习应用，我们预计在此数据集上的基准任务将受益于处理此类数据异质性的算法。

数据集划分

我们包括标准的训练/验证/测试集。划分基于用户ID，比例为8:1:1，即训练、验证和测试集包含不重叠的用户。

划分	训练	验证	测试
用户数量	41,131	5,141	5,142
图像数量	345,879	39,239	43,960

我们建议使用提供的划分以进行可重复的基准测试。

数据集结构

数据集的结构如下： python {user_id: 59769174@N00, image_id: 14913474848, labels: [equipment, material, structure], partition: train, fine_grained_labels: [bag, document, furniture, material, printed_page], image: <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=256x256>}

字段image_id是Flickr照片ID，user_id是拥有该图像的Flickr NSID。按user_id分组以构建现实的异质联邦数据集。字段partition表示图像属于哪个train/dev/test划分。字段fine_grained_labels是图像中主题的标注标签列表，labels是通过将细粒度标签映射到更高阶类别获得的粗粒度标签列表。文件label_relationship.txt包含从约1,600个细粒度标签到17个更高阶类别的映射。

引用

@article{song2022flair, title={FLAIR: Federated Learning Annotated Image Repository}, author={Song, Congzheng and Granqvist, Filip and Talwar, Kunal}, journal={Advances in Neural Information Processing Systems}, volume={35}, pages={37792--37805}, year={2022} }

搜集汇总

数据集介绍

背景与挑战

背景概述

FLAIR是一个专为联邦学习研究设计的大规模图像数据集，包含约43万张来自5.1万Flickr用户的图像，每张图像都标注了多层次标签（1600+细粒度标签和17个粗粒度类别）。数据集已按用户划分训练/验证/测试集，模拟真实联邦场景中的数据异构性，适用于隐私保护机器学习算法的基准测试。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集