Non-IID Dataset|联邦学习数据集|非独立同分布数据集
收藏数据集概述
数据集名称
- Non-IID Dataset and Evaluation Metrics For Federated Learning
数据集目的
- 该数据集旨在研究联邦学习中的非独立同分布(Non-IID)数据问题,提供一个模块化基准框架,包括数据分布度量、非IID数据集生成和评估机器学习算法性能的指标。
数据集组成
-
Non-IID Dataset Module
- Requirements: 包括matplotlib, pandas, torch等库。
- Non-IID Equation Definition: 定义了一个度量数据分布偏移的标准。
- Non-IID Dataset Generation: 提供根据节点数分割CIFAR10数据集的方法,支持通过config.yaml自定义分割模式和节点配置。
-
Evaluation Metrics
- Data Nodes Number: 研究多节点参与学习的过程。
- The Communication Rounds: 评估节点通信轮次对模型性能的影响。
- The Weight of Data Nodes: 研究节点权重对模型准确性的影响。
- The Quality of Data Nodes: 研究数据节点质量对模型性能的影响。
数据集使用方法
- Non-IID Dataset Generation: 使用downloadData.py, makeDataset.py和preprocess.py生成非IID数据集。
- Evaluation Metrics: 通过分析数据节点数量、通信轮次、节点权重和数据节点质量来评估模型性能。
数据集配置
- config.yaml: 用于设置非IID数据集的生成参数,包括节点数、分割模式等。
数据集示例
- 使用CIFAR10数据集进行分割,生成非IID数据集,并通过config.yaml配置相关参数。
结论
该数据集为联邦学习中的非IID数据问题提供了一个全面的解决方案,包括数据集生成、度量定义和性能评估,适用于研究和开发联邦学习算法。

PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录