five

flwrlabs/synthetic|联邦学习数据集|数据集划分数据集

收藏
hugging_face2024-04-24 更新2024-06-26 收录
联邦学习
数据集划分
下载链接:
https://hf-mirror.com/datasets/flwrlabs/synthetic
下载链接
链接失效反馈
资源简介:
SYNTHETIC数据集是LEAF基准测试的一部分,主要用于联邦学习场景。该数据集包含1000个唯一设备(device_id),每个设备有长度为60的输入(x)和5个唯一标签(y)。数据集的结构为单一的train分割,包含107,553个样本。

SYNTHETIC数据集是LEAF基准测试的一部分,主要用于联邦学习场景。该数据集包含1000个唯一设备(device_id),每个设备有长度为60的输入(x)和5个唯一标签(y)。数据集的结构为单一的train分割,包含107,553个样本。
提供机构:
flwrlabs
原始信息汇总

数据集卡片 for SYNTHETIC

SYNTHETIC 数据集是 LEAF 基准测试的一部分。此版本对应于使用默认参数生成的数据集,具有以下特点:

  • 输入 (x) 长度为 60;
  • 5 个唯一标签 (y);
  • 1000 个唯一设备 (device_id)。

数据集详情

数据集描述

  • 由: LEAF 策划
  • 许可证: BSD 2-Clause 许可证

用途

该数据集旨在用于联邦学习设置。

直接使用

我们建议使用 Flower Dataset (flwr-datasets) 和 Flower (flwr)。

要划分数据集,请执行以下操作:

  1. 安装包。 bash pip install flwr-datasets

  2. 在 Flower Datasets 中使用 HF Dataset。 python from flwr_datasets import FederatedDataset from flwr_datasets.partitioner import NaturalIdPartitioner

fds = FederatedDataset( dataset="flwrlabs/synthetic", partitioners={"train": NaturalIdPartitioner(partition_by="device_id")} ) partition = fds.load_partition(partition_id=0)

数据集结构

整个数据集保存在训练分割中。如果您想保留数据集的一部分用于集中评估,请使用 Resplitter。(完整的示例即将在此处提供)。

引用

在使用 LEAF 基准测试时,请引用原始论文。如果您在使用此数据集与 Flower Datasets 时,可以引用 Flower。

BibTeX:

@article{DBLP:journals/corr/abs-1812-01097, author = {Sebastian Caldas and Peter Wu and Tian Li and Jakub Kone{v{c}}n{y} and H. Brendan McMahan and Virginia Smith and Ameet Talwalkar}, title = {{LEAF:} {A} Benchmark for Federated Settings}, journal = {CoRR}, volume = {abs/1812.01097}, year = {2018}, url = {http://arxiv.org/abs/1812.01097}, eprinttype = {arXiv}, eprint = {1812.01097}, timestamp = {Wed, 23 Dec 2020 09:35:18 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-1812-01097.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

@article{DBLP:journals/corr/abs-2007-14390, author = {Daniel J. Beutel and Taner Topal and Akhil Mathur and Xinchi Qiu and Titouan Parcollet and Nicholas D. Lane}, title = {Flower: {A} Friendly Federated Learning Research Framework}, journal = {CoRR}, volume = {abs/2007.14390}, year = {2020}, url = {https://arxiv.org/abs/2007.14390}, eprinttype = {arXiv}, eprint = {2007.14390}, timestamp = {Mon, 03 Aug 2020 14:32:13 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2007-14390.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

数据集卡片联系

如有任何疑问,请联系 Flower Labs

AI搜集汇总
数据集介绍
main_image_url
构建方式
SYNTHETIC数据集由LEAF benchmark策划,采用预设的默认参数生成。该数据集包含长度为60的输入特征序列(x),5个独特的标签(y),以及1000个独特的设备标识(device_id)。数据集的构建依托于联邦学习场景下的需求,通过模拟生成的方式,确保了数据在分布式环境下的可用性和兼容性。
特点
该数据集的特点在于其专为联邦学习环境设计,具有高度的结构化特征,便于在分布式网络中进行模型训练和评估。数据集遵循BSD 2-Clause许可证,提供了1000个设备上的107553条训练样本,为研究联邦学习算法提供了丰富的实验基础。此外,数据集通过Flower框架进行分区,保证了数据隐私和安全。
使用方法
使用SYNTHETIC数据集,首先需要安装Flower Datasets包。然后,通过Flower框架中的FederatedDataset类加载数据集,并利用NaturalIdPartitioner对数据进行分区。用户可以根据需要调整数据集的分区策略,以适应不同的联邦学习场景。详细的使用指南和示例代码可在Flower框架的官方文档中找到。
背景与挑战
背景概述
SYNTHETIC数据集,作为LEAF(Leaf Learning Framework)基准的一部分,由卡内基梅隆大学维护。该数据集的创建旨在为联邦学习环境提供标准的测试平台,其特点在于拥有60维的输入向量、5个独特的标签以及1000个不同的设备标识。SYNTHETIC数据集的构建,不仅为研究人员提供了一致的实验基础,而且促进了联邦学习领域的研究进展,对于评估联邦学习算法的性能具有不可忽视的影响力。
当前挑战
在研究领域,SYNTHETIC数据集面临的挑战主要包括如何在保持数据隐私的同时实现有效的模型训练。具体而言,如何在分布式设备上收集数据时确保数据安全和隐私,以及如何处理由不同设备带来的数据异质性,是构建该数据集时需要克服的关键问题。此外,由于联邦学习环境的特殊性,数据集的分区和联邦学习框架的有效集成也是实际应用中必须考虑的挑战。
常用场景
经典使用场景
在联邦学习的研究领域,SYNTHETIC数据集以其生成数据的特性,成为了检验模型泛化能力与隐私保护机制的重要资源。该数据集被广泛用于模拟具有多个设备、不同标签和输入长度的联邦学习场景,以评估联邦学习算法在真实世界数据分布下的表现。
衍生相关工作
基于SYNTHETIC数据集的研究成果,已衍生出一系列相关工作,包括对联邦学习算法的改进、隐私保护机制的探索以及分布式机器学习系统的优化。这些工作进一步拓展了联邦学习在理论和应用层面的边界,推动了智能系统的隐私保护与高效学习。
数据集最近研究
最新研究方向
在联邦学习领域,SYNTHETIC数据集近期被广泛用于评估模型的性能。该数据集由LEAF benchmark提供,含有1000个独特设备产生的数据,旨在模拟分布式环境中的数据收集过程。近期研究聚焦于如何利用此类数据集进行高效、隐私保护的模型训练。学者们探讨了在不同设备上数据分布不均的挑战,以及如何通过联邦学习框架如Flower来优化模型训练过程。这些研究不仅提升了模型在真实世界场景中的泛化能力,也为联邦学习的应用提供了可靠的数据基础,对推动该领域的发展具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集