Street Dataset

arXiv2021-01-05 更新2024-06-21 收录

下载链接：

https://dataset.fedai.org

下载链接

链接失效反馈

官方服务：

资源简介：

Street Dataset是由华南理工大学、香港科技大学等机构合作创建的真实世界图像数据集，包含2544个标注对象，涵盖7个类别，由26个街头摄像头捕捉。数据集反映了非独立同分布和不平衡的数据分布，模拟了真实世界联邦学习场景。创建过程中，图像经过手动标注和筛选，确保数据质量。该数据集主要用于评估联邦学习框架下的目标检测算法，解决数据隐私和安全问题，推动联邦学习技术的发展。

The Street Dataset is a real-world image dataset jointly created by South China University of Technology, The Hong Kong University of Science and Technology and other collaborating institutions. It contains 2544 annotated objects across 7 categories, captured by 26 street cameras. The dataset exhibits non-independent and identically distributed (non-IID) and imbalanced data distributions, thus mimicking real-world federated learning scenarios. During its curation, all images were manually annotated and filtered to ensure data quality. This dataset is primarily used to evaluate object detection algorithms under federated learning frameworks, addressing data privacy and security concerns and promoting the advancement of federated learning technologies.

提供机构：

华南理工大学, 中国香港科技大学, 香港特别行政区极限视觉有限公司, 深圳, 中国深圳大学, 中国微众银行有限公司, 深圳, 中国

创建时间：

2019-10-14

搜集汇总

数据集介绍

构建方式

在联邦学习研究领域，真实世界图像数据的稀缺性促使了Street Dataset的构建。该数据集源自26个街道监控摄像头在不同时段捕获的视频，经过筛选去除相似及夜间场景后，保留了956张清晰且内容各异的图像。研究人员对这些图像进行了精细标注，共标注了2544个目标，涵盖篮子、纸箱、椅子、电动车、煤气罐、遮阳伞和桌子等七类常见街道物体，所有目标均以边界框形式标注。数据划分依据摄像头的真实地理位置信息，将训练集分为Street-5和Street-20两种场景，前者将邻近摄像头聚类为5个客户端，后者则以每个摄像头作为独立客户端，从而自然形成了非独立同分布的数据划分，有效模拟了联邦学习中的边缘设备数据分布特性。

使用方法

该数据集主要用于联邦学习框架下的目标检测算法评估与基准测试。研究人员可基于提供的Street-5或Street-20划分，在分布式环境中训练如YOLOv3或Faster R-CNN等目标检测模型。使用时应遵循联邦平均算法等协作学习范式，各客户端在本地进行模型训练后仅上传参数至中央服务器进行聚合，以此模拟数据隐私保护场景。数据集的测试集包含了来自未见摄像头及已知摄像头的图像，能够同时评估模型的预测能力与泛化性能。通过调整客户端数量、本地训练轮数等超参数，可深入探究非独立同分布数据对模型收敛速度、通信开销及最终精度的影响。

背景与挑战

背景概述

随着联邦学习这一新兴机器学习范式的兴起，如何在保护数据隐私的前提下实现多方协作建模成为研究热点。然而，现有研究多依赖预先存在的公共数据集和人工划分来模拟联邦场景，缺乏真实边缘应用产生的高质量标注数据，导致模型评估与基准测试进展滞后。在此背景下，由华南理工大学、香港科技大学、微众银行等机构的研究人员于2021年共同创建的Street Dataset应运而生。该数据集聚焦于真实世界中的物体检测任务，采集自26个街道监控摄像头，包含超过900张图像及7个物体类别的边界框标注，其数据分布呈现非独立同分布与不平衡特性，精准反映了联邦学习在实际应用中的数据异质性。该数据集的发布为联邦学习在计算机视觉领域的算法评估提供了可靠的现实基准，推动了隐私保护与模型性能协同优化的相关研究。

当前挑战

Street Dataset所针对的联邦学习物体检测领域面临多重挑战。在领域问题层面，如何在数据非独立同分布且类别不平衡的跨设备环境下，实现高效、准确的协同模型训练是一大核心难题；同时，联邦框架中的通信开销、模型聚合策略以及隐私安全权衡也亟待优化。在数据集构建过程中，挑战同样显著：从真实监控视频中采集并筛选高质量图像需克服场景相似性、夜间图像噪声等问题；手动标注边界框耗时费力，且需确保标注一致性与准确性；此外，依据摄像头地理信息对数据进行自然划分以模拟真实联邦场景，同时保持数据分布的异质性与真实性，亦是构建过程中的关键挑战。

常用场景

经典使用场景

在联邦学习领域，Street Dataset 作为首个真实世界图像数据集，其经典使用场景聚焦于评估非独立同分布数据环境下的目标检测算法性能。该数据集源自26个街道监控摄像头，包含超过900张图像及7类常见街景物体的边界框标注，其数据分布天然呈现非均衡与异构特性，精准模拟了边缘设备在现实场景中的数据生成模式。研究者常利用该数据集对联邦平均算法进行基准测试，通过调整客户端数量、本地训练轮数等参数，深入探究联邦学习框架在目标检测任务中的收敛效率与模型泛化能力。

解决学术问题

Street Dataset 有效解决了联邦学习研究中长期存在的真实数据缺失问题，为学术界提供了首个面向目标检测任务的非独立同分布基准数据集。该数据集通过地理信息划分的Street-5与Street-20两种数据分区，系统化呈现了现实场景中数据分布的异构性与类别不均衡性，使得研究者能够深入探索联邦学习在非理想数据条件下的优化策略。其意义在于突破了传统研究依赖人工划分公共数据集的局限，推动了联邦学习在计算机视觉领域的评估标准化，为隐私保护与模型性能的平衡研究提供了关键实验基础。

实际应用

该数据集的实际应用场景紧密关联智慧城市与边缘计算领域，特别适用于分布式监控系统中的协同目标检测任务。例如在跨区域交通管理、公共安全监测等场景中，多个机构可利用联邦学习框架基于各自摄像头数据协同训练检测模型，无需共享原始图像数据即可识别街景中的车辆、行人等目标。这种模式既符合GDPR等数据保护法规的要求，又能有效降低数据传输的通信开销，为零售客流分析、城市设施管理等商业应用提供了隐私安全的解决方案。

数据集最近研究