LEAF

Name: LEAF
Creator: 卡内基梅隆大学
Published: 2019-12-10 04:02:37
License: 暂无描述

arXiv2019-12-10 更新2024-06-21 收录

下载链接：

https://leaf.cmu.edu

下载链接

链接失效反馈

官方服务：

资源简介：

LEAF是由卡内基梅隆大学创建的一个模块化基准框架，专注于联邦学习环境。该框架包含六个数据集，分别是FEMNIST、Sent140、Shakespeare、CelebA、Reddit和一个合成数据集。这些数据集的特点是数据自然地按设备/用户生成，涉及从数千到数百万的设备网络，且数据点在设备间分布不均。LEAF的创建旨在为联邦学习、元学习和多任务学习等领域提供真实世界的基准，解决数据异构性、系统规模和隐私安全等挑战。

LEAF is a modular benchmark framework developed by Carnegie Mellon University, focusing on federated learning environments. It comprises six datasets: FEMNIST, Sent140, Shakespeare, CelebA, Reddit, and a synthetic dataset. These datasets feature data naturally generated per device or user, involve device networks ranging from thousands to millions of nodes, and present non-uniform distributions of data points across devices. LEAF was created to provide real-world benchmarks for domains including federated learning, meta-learning, and multi-task learning, addressing core challenges such as data heterogeneity, system scalability, and privacy and security issues.

提供机构：

卡内基梅隆大学

创建时间：

2018-12-04

搜集汇总

数据集介绍

构建方式

在联邦学习领域，数据天然分布于海量异构设备之中，LEAF框架通过精心设计的数据集构建方法，真实模拟了这一场景。该框架从公开数据源中选取具有自然键值生成过程的数据集，例如依据书写者划分的FEMNIST、按用户划分的Sentiment140、基于戏剧角色划分的Shakespeare等，每个键值对应一个独立设备或用户。构建过程中严格保留了设备间数据量的高度偏斜分布与统计异质性，并通过标准化预处理脚本将原始数据转化为统一格式，同时提供完整版与精简版以支持从原型验证到全面测试的不同研究阶段。

使用方法

使用LEAF数据集时，研究者可依托其模块化架构便捷地构建实验流程。数据集模块提供了经预处理的标准化数据接口，可直接接入自定义机器学习管道。评估环节可调用内置的统计与系统指标模块，例如分析不同百分位设备性能或计算通信计算开销，从而对算法进行多角度测评。框架还包含联邦平均等参考实现，便于方法对比与结果复现。用户可通过替换数据集、整合新算法或扩展评估指标来探索不同联邦场景，例如在CelebA上训练本地个性化模型或在FEMNIST上验证元学习方法的适应性，以此推动面向实际挑战的算法创新。

背景与挑战

背景概述

随着物联网与移动计算技术的迅猛发展，联邦网络如可穿戴设备、智能手机及自动驾驶车辆等每日产生海量数据，为提升设备端用户体验提供了丰富的数据资源。然而，联邦数据的规模性与异构性给联邦学习、元学习及多任务学习等研究领域带来了新的挑战。在此背景下，卡内基梅隆大学、谷歌及Determined AI的研究团队于2019年共同推出了LEAF基准框架，旨在填补现有基准数据集在联邦场景真实性方面的不足。LEAF通过整合一系列开源联邦数据集、严谨的评估框架及参考实现，为核心研究问题——如何在保护隐私与应对系统约束的同时，于异构设备网络上高效学习模型——提供了标准化解决方案，对推动联邦学习及相关领域的发展产生了深远影响。

当前挑战

LEAF数据集致力于解决联邦学习、元学习及多任务学习等领域中的核心挑战，即如何在数据分布高度异构、设备资源受限且隐私敏感的大规模分布式环境中实现高效模型学习。具体挑战包括：统计层面，各设备数据生成分布差异显著且样本量极度不均衡；系统层面，设备数量远超传统分布式设置，存储、计算与通信能力存在显著约束；隐私安全层面，需在保护个人数据敏感性的前提下平衡模型精度与效率。在构建过程中，团队面临将公开数据转化为真实联邦场景的难题，例如确保数据自然分区（如按用户或设备划分）、处理跨设备样本偏斜，以及设计能全面反映设备性能分布与资源消耗的评估指标，从而克服以往数据集中存在的过于理想化或难以复现的局限性。

常用场景

经典使用场景

在联邦学习领域，LEAF数据集常被用作评估算法在非独立同分布数据环境下的性能基准。其经典使用场景包括模拟真实世界中的设备异构性，例如通过FEMNIST数据集基于不同书写者划分手写字符，或利用Sentiment140数据集根据推特用户的情感表达差异构建自然分区。这些场景能够有效检验联邦学习算法在数据分布不均、设备资源受限等复杂条件下的鲁棒性与适应性。

解决学术问题

LEAF数据集主要解决了联邦学习、元学习和多任务学习中的关键学术问题。它通过提供具有自然分区、设备规模庞大且数据量倾斜的公开数据集，弥补了传统基准数据集在模拟真实联邦环境时的不足。例如，数据集中的莎士比亚剧本角色划分和Reddit评论用户分区，使得研究者能够深入探究统计异质性、通信效率与隐私安全之间的平衡，推动了跨设备个性化模型与资源优化方法的发展。

实际应用

在实际应用中，LEAF数据集为移动设备、物联网终端和边缘计算系统提供了重要的验证平台。例如，基于CelebA数据集的联邦人脸属性识别可应用于分布式智能监控系统；而Reddit数据集的自然语言处理任务则能优化社交媒体平台的个性化推荐引擎。这些应用场景充分体现了LEAF在保护用户隐私的前提下，实现跨设备协同学习的工程价值。

数据集最近研究