Street Dataset
收藏arXiv2021-01-05 更新2024-06-21 收录
下载链接:
https://dataset.fedai.org
下载链接
链接失效反馈官方服务:
资源简介:
Street Dataset是由华南理工大学、香港科技大学等机构合作创建的真实世界图像数据集,包含2544个标注对象,涵盖7个类别,由26个街头摄像头捕捉。数据集反映了非独立同分布和不平衡的数据分布,模拟了真实世界联邦学习场景。创建过程中,图像经过手动标注和筛选,确保数据质量。该数据集主要用于评估联邦学习框架下的目标检测算法,解决数据隐私和安全问题,推动联邦学习技术的发展。
The Street Dataset is a real-world image dataset jointly created by South China University of Technology, The Hong Kong University of Science and Technology and other collaborating institutions. It contains 2544 annotated objects across 7 categories, captured by 26 street cameras. The dataset exhibits non-independent and identically distributed (non-IID) and imbalanced data distributions, thus mimicking real-world federated learning scenarios. During its curation, all images were manually annotated and filtered to ensure data quality. This dataset is primarily used to evaluate object detection algorithms under federated learning frameworks, addressing data privacy and security concerns and promoting the advancement of federated learning technologies.
提供机构:
华南理工大学, 中国 香港科技大学, 香港特别行政区 极限视觉有限公司, 深圳, 中国 深圳大学, 中国 微众银行有限公司, 深圳, 中国
创建时间:
2019-10-14
搜集汇总
数据集介绍
构建方式
在联邦学习研究领域,真实世界图像数据的稀缺性促使了Street Dataset的构建。该数据集源自26个街道监控摄像头在不同时段捕获的视频,经过筛选去除相似及夜间场景后,保留了956张清晰且内容各异的图像。研究人员对这些图像进行了精细标注,共标注了2544个目标,涵盖篮子、纸箱、椅子、电动车、煤气罐、遮阳伞和桌子等七类常见街道物体,所有目标均以边界框形式标注。数据划分依据摄像头的真实地理位置信息,将训练集分为Street-5和Street-20两种场景,前者将邻近摄像头聚类为5个客户端,后者则以每个摄像头作为独立客户端,从而自然形成了非独立同分布的数据划分,有效模拟了联邦学习中的边缘设备数据分布特性。
使用方法
该数据集主要用于联邦学习框架下的目标检测算法评估与基准测试。研究人员可基于提供的Street-5或Street-20划分,在分布式环境中训练如YOLOv3或Faster R-CNN等目标检测模型。使用时应遵循联邦平均算法等协作学习范式,各客户端在本地进行模型训练后仅上传参数至中央服务器进行聚合,以此模拟数据隐私保护场景。数据集的测试集包含了来自未见摄像头及已知摄像头的图像,能够同时评估模型的预测能力与泛化性能。通过调整客户端数量、本地训练轮数等超参数,可深入探究非独立同分布数据对模型收敛速度、通信开销及最终精度的影响。
背景与挑战
背景概述
随着联邦学习这一新兴机器学习范式的兴起,如何在保护数据隐私的前提下实现多方协作建模成为研究热点。然而,现有研究多依赖预先存在的公共数据集和人工划分来模拟联邦场景,缺乏真实边缘应用产生的高质量标注数据,导致模型评估与基准测试进展滞后。在此背景下,由华南理工大学、香港科技大学、微众银行等机构的研究人员于2021年共同创建的Street Dataset应运而生。该数据集聚焦于真实世界中的物体检测任务,采集自26个街道监控摄像头,包含超过900张图像及7个物体类别的边界框标注,其数据分布呈现非独立同分布与不平衡特性,精准反映了联邦学习在实际应用中的数据异质性。该数据集的发布为联邦学习在计算机视觉领域的算法评估提供了可靠的现实基准,推动了隐私保护与模型性能协同优化的相关研究。
当前挑战
Street Dataset所针对的联邦学习物体检测领域面临多重挑战。在领域问题层面,如何在数据非独立同分布且类别不平衡的跨设备环境下,实现高效、准确的协同模型训练是一大核心难题;同时,联邦框架中的通信开销、模型聚合策略以及隐私安全权衡也亟待优化。在数据集构建过程中,挑战同样显著:从真实监控视频中采集并筛选高质量图像需克服场景相似性、夜间图像噪声等问题;手动标注边界框耗时费力,且需确保标注一致性与准确性;此外,依据摄像头地理信息对数据进行自然划分以模拟真实联邦场景,同时保持数据分布的异质性与真实性,亦是构建过程中的关键挑战。
常用场景
经典使用场景
在联邦学习领域,Street Dataset 作为首个真实世界图像数据集,其经典使用场景聚焦于评估非独立同分布数据环境下的目标检测算法性能。该数据集源自26个街道监控摄像头,包含超过900张图像及7类常见街景物体的边界框标注,其数据分布天然呈现非均衡与异构特性,精准模拟了边缘设备在现实场景中的数据生成模式。研究者常利用该数据集对联邦平均算法进行基准测试,通过调整客户端数量、本地训练轮数等参数,深入探究联邦学习框架在目标检测任务中的收敛效率与模型泛化能力。
解决学术问题
Street Dataset 有效解决了联邦学习研究中长期存在的真实数据缺失问题,为学术界提供了首个面向目标检测任务的非独立同分布基准数据集。该数据集通过地理信息划分的Street-5与Street-20两种数据分区,系统化呈现了现实场景中数据分布的异构性与类别不均衡性,使得研究者能够深入探索联邦学习在非理想数据条件下的优化策略。其意义在于突破了传统研究依赖人工划分公共数据集的局限,推动了联邦学习在计算机视觉领域的评估标准化,为隐私保护与模型性能的平衡研究提供了关键实验基础。
实际应用
该数据集的实际应用场景紧密关联智慧城市与边缘计算领域,特别适用于分布式监控系统中的协同目标检测任务。例如在跨区域交通管理、公共安全监测等场景中,多个机构可利用联邦学习框架基于各自摄像头数据协同训练检测模型,无需共享原始图像数据即可识别街景中的车辆、行人等目标。这种模式既符合GDPR等数据保护法规的要求,又能有效降低数据传输的通信开销,为零售客流分析、城市设施管理等商业应用提供了隐私安全的解决方案。
数据集最近研究
最新研究方向
在联邦学习与计算机视觉交叉领域,Street Dataset作为真实世界图像数据集,其前沿研究聚焦于非独立同分布数据下的联邦对象检测算法优化。该数据集源自26个街道监控摄像头,包含7类常见物体的标注边界框,其数据分布天然呈现非平衡与非独立同分布特性,精准模拟了边缘设备在现实场景中的数据异构性。当前研究热点围绕联邦平均算法在非独立同分布数据上的适应性改进展开,探索如何通过调整本地训练轮数、客户端选择策略以及模型聚合机制,以提升YOLOv3与Faster R-CNN等目标检测模型在联邦框架下的收敛效率与泛化性能。同时,该数据集为研究隐私保护与模型精度间的平衡提供了实验基准,推动了联邦学习在智慧城市、自动驾驶等视觉任务中的实际应用,对解决数据孤岛与隐私合规挑战具有重要实践意义。
相关研究论文
- 1Real-World Image Datasets for Federated Learning华南理工大学, 中国 香港科技大学, 香港特别行政区 极限视觉有限公司, 深圳, 中国 深圳大学, 中国 微众银行有限公司, 深圳, 中国 · 2021年
以上内容由遇见数据集搜集并总结生成



