SODA10m|半监督学习数据集|对象检测数据集

github2023-12-20 更新2024-05-31 收录

半监督学习

对象检测

下载链接：

https://github.com/OnlyShoky/Detectron2-STAC-SODA10m

下载链接

链接失效反馈

资源简介：

SODA10m数据集用于半监督对象检测，旨在通过减少对大量标记数据集的依赖来提高模型性能。

The SODA10m dataset is designed for semi-supervised object detection, aiming to enhance model performance by reducing reliance on extensive labeled datasets.

创建时间：

2023-11-23

原始信息汇总

Detectron2-STAC-SODA10m 数据集概述

简介

Detectron2-STAC-SODA10m 项目将 STAC 半监督目标检测算法与 Detectron2 结合，应用于 SODA10m 数据集。STAC 算法代表自训练（通过伪标签）和增强驱动的一致性正则化，旨在提升目标检测性能，特别是在标注数据不充足的情况下。

目标

本项目的主要目标是开发并实施自训练和增强驱动的一致性正则化（STAC）方法，使用 Detectron2 库，专注于 SODA10m 数据集，具体目标包括：

利用半监督学习提升目标检测模型性能。
减少对大量标注数据的依赖，同时保持模型的高性能。

特性

预处理脚本：准备 SODA10m 数据集的图像以进行目标检测任务。
模型训练笔记本：使用 Detectron2 和 STAC 训练目标检测模型的分步 Jupyter 笔记本。
推理与评估：评估模型性能和可视化检测结果的工具。

数据集结构

确保 SODA10m 数据集已下载并按以下结构组织在项目目录中：

/ (Git 仓库根目录) └── SSLAD-2D/ └── labeled/ ├── annotations/ ├── test/ ├── train/ └── val/

AI搜集汇总

数据集介绍

构建方式

SODA10m数据集的构建基于Detectron2框架与STAC半监督目标检测算法相结合。该数据集通过自训练（Self-Training）和增强驱动的连续性正则化（Augmentation driven Consistency regularization）技术，旨在提升在标注数据稀缺情况下的目标检测性能。数据集的准备包括预处理脚本，用于将图像数据转换为适合目标检测任务的格式，并确保数据结构的合理性，以便于后续的模型训练和评估。

特点

SODA10m数据集的显著特点在于其结合了半监督学习方法，通过伪标签和数据增强技术，有效减少了模型对大量标注数据的依赖。此外，数据集提供了详细的预处理脚本、模型训练笔记本以及推理和评估工具，使得用户能够系统地进行从数据准备到模型评估的全流程操作。这种设计不仅提高了数据集的实用性，也为研究者提供了便捷的实验平台。

使用方法

使用SODA10m数据集时，用户首先需要克隆项目仓库并设置Python环境，确保安装了项目所需的依赖包。随后，用户需将SODA10m数据集按照指定结构组织，以便与项目中的预处理脚本兼容。通过提供的Jupyter笔记本，用户可以逐步进行模型训练，并利用推理和评估工具对模型性能进行验证。整个流程设计旨在简化操作，同时确保实验的可重复性和结果的可靠性。

背景与挑战

背景概述

SODA10m数据集是由STAC算法与Detectron2框架结合应用于半监督目标检测任务的核心数据集。该数据集的创建旨在解决在标注数据稀缺的情况下，如何通过半监督学习提升目标检测模型的性能。STAC算法通过伪标签和数据增强驱动的自训练方法，有效减少了模型对大量标注数据的依赖。SODA10m数据集的开发与应用，不仅推动了半监督学习在目标检测领域的研究进展，也为资源有限环境下的计算机视觉任务提供了新的解决方案。

当前挑战

SODA10m数据集在构建与应用过程中面临多项挑战。首先，如何在标注数据稀缺的情况下，通过伪标签和数据增强技术实现高效的自训练，是该数据集的核心挑战之一。其次，数据集的预处理和模型训练过程中，依赖于Detectron2框架的特定版本，这要求用户在环境配置时需严格遵循依赖项的版本要求，以避免兼容性问题。此外，半监督学习方法的引入虽然减少了标注数据的依赖，但其性能仍受限于伪标签的质量和数据增强策略的有效性。

常用场景

经典使用场景

在计算机视觉领域，SODA10m数据集的经典使用场景主要集中在半监督目标检测任务中。该数据集通过结合Detectron2框架与STAC算法，能够在标注数据有限的情况下，显著提升目标检测模型的性能。具体而言，研究者可以利用该数据集进行图像预处理、模型训练以及检测结果的可视化与评估，从而在实际应用中实现高效且准确的目标识别。

实际应用

在实际应用中，SODA10m数据集广泛应用于自动驾驶、智能监控以及工业自动化等领域。例如，在自动驾驶系统中，该数据集可以帮助车辆在复杂环境中识别并定位行人、车辆等目标，从而提升驾驶安全性。此外，在智能监控系统中，SODA10m数据集的模型能够有效检测异常行为，为公共安全提供技术支持。

衍生相关工作

基于SODA10m数据集，研究者们进一步开发了多种相关的经典工作。例如，有学者提出了基于该数据集的改进型STAC算法，通过引入更复杂的伪标签生成策略，进一步提升了模型的检测精度。此外，还有研究团队利用该数据集进行跨域目标检测实验，探索了模型在不同数据分布下的泛化能力，为跨域学习提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Plants of the World Online (POWO)

Plants of the World Online (POWO) 是一个全球植物数据库，提供了关于植物物种的详细信息，包括分类学、分布、生态学和保护状态等。该数据库旨在为植物学家、生态学家和公众提供一个全面的植物信息资源。

powo.science.kew.org 收录

中国陆域及周边逐日1km全天候地表温度数据集（TRIMS LST；2000-2023）

地表温度（Land surface temperature, LST）是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现，又对于地气过程具有复杂的反馈作用。因此，地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提，还是众多模型的直接输入参数，在许多领域有广泛的应用，如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化，学术界对卫星遥感的全天候地表温度（All-weather LST）具有迫切的需求。本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据，辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性，最终重建得到较高质量的全天候地表温度数据集。评价结果表明，本数据集具有良好的图像质量和精度，不仅在空间上无缝，还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时，该数据集在白天和夜间的平均偏差（MBE）为0.09K和-0.03K，偏差标准差（STD）为1.45K和1.17K。基于19个站点实测数据的检验结果表明，其MBE为-2.26K至1.73K，RMSE为0.80K至3.68K，且在晴空与非晴空条件下无显著区别。本数据集的时间分辨率为逐日4次，空间分辨率为1km，时间跨度为2000年-2023年；空间范围包括我国陆域的主要区域（包含港澳台地区，暂不包含我国南海诸岛）及周边区域（72°E-135°E，19°N-55°N）。本数据集的缩写名为TRIMS LST（Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST），以便用户使用。需要说明的是，TRIMS LST的空间子集TRIMS LST-TP（中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2023）V2）同步在国家青藏高原科学数据中心发布，以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心收录

CMAB

CMAB数据集由清华大学创建，是中国首个全国范围的多属性建筑数据集，涵盖了3667个自然城市，总面积达213亿平方米。该数据集通过集成多源数据，如高分辨率Google Earth影像和街景图像，生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型，确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究，旨在提供详细的城市3D物理和社会结构信息，支持城市化进程和政府决策。

arXiv 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集，旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本，覆盖 13 个普通场景，如办公室、走廊和户外环境。数据采集通过结合神经辐射场（NeRF）和触觉传感器完成，利用多视图几何方法校准视觉与触觉信号，实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号，最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务，为机器人交互和虚拟世界构建提供重要支持。

github 收录