apple/flair
收藏Federated Learning Annotated Image Repository (FLAIR)
概述
FLAIR是一个大型标注图像数据集,用于在联邦学习(FL)和隐私保护机器学习任务中进行基准测试。该数据集包含约430,000张来自51,000名Flickr用户的图像,旨在更好地反映实际联邦学习问题,并促进该领域的研究。
图像标签
这些图像由人工标注,并从超过1,600个细粒度标签的分类法中分配标签。所有主要主题在图像中都被标记,因此图像可能有多个标签。分类法是分层的,细粒度标签可以映射到17个粗粒度类别。数据集包括细粒度和粗粒度标签,以便研究人员可以调整机器学习任务的复杂性。
用户标签及其在联邦学习中的应用
我们使用图像元数据提取艺术家名称/ID,以创建用于联邦学习的用户数据集。虽然机器学习的优化算法通常假设每个示例都是从分布中独立采样的,但联邦学习应用在几个方面偏离了这一假设,这些差异在我们的用户标注示例中得到反映。不同用户拥有的图像数量以及他们图像集合中代表的类别数量不同。此外,同一类别但由不同用户拍摄的图像可能存在一些分布偏移。这些数据集的特性更好地反映了联邦学习应用,我们预计在此数据集上的基准任务将受益于处理此类数据异质性的算法。
数据集划分
我们包括标准的训练/验证/测试集。划分基于用户ID,比例为8:1:1,即训练、验证和测试集包含不重叠的用户。
| 划分 | 训练 | 验证 | 测试 |
|---|---|---|---|
| 用户数量 | 41,131 | 5,141 | 5,142 |
| 图像数量 | 345,879 | 39,239 | 43,960 |
我们建议使用提供的划分以进行可重复的基准测试。
数据集结构
数据集的结构如下: python {user_id: 59769174@N00, image_id: 14913474848, labels: [equipment, material, structure], partition: train, fine_grained_labels: [bag, document, furniture, material, printed_page], image: <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=256x256>}
字段image_id是Flickr照片ID,user_id是拥有该图像的Flickr NSID。按user_id分组以构建现实的异质联邦数据集。字段partition表示图像属于哪个train/dev/test划分。字段fine_grained_labels是图像中主题的标注标签列表,labels是通过将细粒度标签映射到更高阶类别获得的粗粒度标签列表。文件label_relationship.txt包含从约1,600个细粒度标签到17个更高阶类别的映射。
引用
@article{song2022flair, title={FLAIR: Federated Learning Annotated Image Repository}, author={Song, Congzheng and Granqvist, Filip and Talwar, Kunal}, journal={Advances in Neural Information Processing Systems}, volume={35}, pages={37792--37805}, year={2022} }




