ridgerun-ai/citw-v0.1|目标检测数据集|手机检测数据集

hugging_face2024-01-26 更新2024-03-04 收录

目标检测

手机检测

下载链接：

https://hf-mirror.com/datasets/ridgerun-ai/citw-v0.1

下载链接

链接失效反馈

资源简介：

CITW（Cellphones in the Wild）是一个包含手机图像及其对应边界框注释的小型数据集。该数据集是从COCO 2017数据集中提取的，仅保留了包含手机的图像和注释。数据集由Michael Grüner策划，并由RidgeRun.ai资助，采用CC-BY-NC-2.0许可证。数据集包含两个分割：train和val，每个分割中包含JPEG格式的图像和metadata.jsonl文件。metadata.jsonl文件中的每个条目代表一张图像，包含边界框和类别信息。数据集主要用于训练手机检测器，但仅限于2017年之前生产的手机模型，可能会与其他类似设备混淆。

提供机构：

ridgerun-ai

原始信息汇总

数据集卡片：Cellphones in the Wild

数据集详情

数据集描述

CITW（Cellphones in the Wild）是一个包含图像中手机边界框标注的小型数据集。该数据集是从COCO 2017中提取的，仅保留了包含手机的图像及其对应的边界框标注。数据集的结构和标注已调整为与Huggingface兼容。

许可证： CC-BY-NC-2.0

数据集来源

仓库： https://huggingface.co/datasets/ridgerun-ai/citw-v0.1

用途

直接用途

CITW旨在用于训练手机检测器。

超出范围的用途

该数据集仅包含手机样本，不适用于其他类型的电话，如办公室电话、传真机或公共电话。

数据集结构

数据集位于data目录下，包含两个拆分：train和val，分别表示为子目录。每个拆分中包含JPEG格式的图像以及一个metadata.jsonl文件。

metadata.jsonl文件每行一个条目，每个条目代表一个图像。标注信息可以在objects对象下找到。该对象包含一个边界框列表（本身是一个列表）和一个类别列表（只有一个类别：0）。

单个边界框标注为：[x, y, width, height]。

只有一个类别：0，显然对应于手机类别。

条目示例

一个条目示例如下： json { "file_name": "000000253967.jpg", "objects": { "bbox": [ [16.31, 104.46, 33.54, 43.17], [277.55, 146.1, 17.99, 58.69], [436.56, 130.99, 23.33, 42.09] ], "categories": [0, 0, 0] } }

在这个示例中，图像包含3个手机，这反映在3个边界框和3个手机类别列表中。

数据集创建

源数据

数据收集和处理

该数据集是COCO2017的精简版。仓库中包含一个coco2citw.py脚本，用于自动化此过程。

源数据生产者

有关原始生产过程的信息，请参阅COCO Challenge主页。

个人和敏感信息

据我们所知，该数据集中没有个人和敏感信息。

偏差、风险和限制

该数据集仅限于2017年之前生产的手机型号。类似物体（如对讲机、便携式游戏机或计算器）可能会被混淆。

术语表

CITW: Cellphones in the Wild

AI搜集汇总

数据集介绍

构建方式

Cellphones in the Wild (CITW)数据集，是由Michael Grüner精心策划，从COCO 2017数据集中提炼而来。该数据集仅保留了包含手机及其边界框注释的图像。通过自动化脚本coco2citw.py，将原始COCO数据集中的结构和注释转换为Huggingface兼容的格式，确保了数据集构建的准确性和效率。

特点

CITW数据集的主要特点在于其专注于野外环境下手机图像的检测。数据集规模虽小，但结构紧凑，仅包含手机相关样本，且所有图像均伴有精确的边界框注释。其遵循CC-BY-NC-2.0许可，保证了数据集在非商业用途下的开放性和可用性。

使用方法

使用CITW数据集，用户可以直接用于训练手机检测模型。数据集分为训练集和验证集两个部分，每个部分都包含JPEG格式的图像和metadata.jsonl文件。用户可以依据metadata.jsonl文件中提供的边界框信息，对模型进行监督学习训练，进而提高手机检测的准确性。

背景与挑战

背景概述

在智能视觉识别领域，Cellphones in the Wild（CITW）数据集的构建旨在推动移动设备检测技术的发展。该数据集由RidgeRun.ai资助，并于2017年基于COCO数据集进行精炼，专注于提取包含手机图像及其边界框注释的样本。其主要研究人员为Michael Grüner，此数据集的创建不仅丰富了移动设备识别领域的研究资源，而且对提升现实场景中手机检测算法的准确性具有显著影响。

当前挑战

CITW数据集在构建和应用过程中面临的挑战主要包括：一是数据集的局限性，仅涵盖2017年及以前生产的手机模型，可能无法适应新型手机的变化；二是数据集的泛化能力，由于仅包含手机样本，对于类似设备如对讲机、便携式游戏机等识别存在混淆风险；三是数据集的多样性和广泛性不足，可能无法全面覆盖现实世界中的手机使用场景，从而影响检测算法的泛化表现。

常用场景

经典使用场景

在计算机视觉研究领域，Cellphones in the Wild (CITW) 数据集以其精妙的构造和详尽的标注，成为对象检测任务中训练 cellphone 检测器的直接用例。该数据集通过从 COCO 2017 中提炼出含手机图像及其边界框标注的样本，为研究者提供了一个专注于手机检测的基准。

解决学术问题

CITW 数据集解决了对象检测领域中对特定对象，即手机，进行准确识别与定位的学术难题。它为算法训练提供了一个针对性的数据源，有助于提升检测模型在复杂环境下的鲁棒性和准确性，对于推动相关学术研究的深入发展具有显著意义。

衍生相关工作

基于 CITW 数据集的研究成果，已经衍生出一系列相关的工作，包括但不限于对检测算法的改进、数据集的扩展以及跨领域应用的探索，这些研究进一步拓宽了计算机视觉技术在现实世界的应用范围，并对未来技术的发展产生了深远影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国区域250米植被覆盖度数据集（2000-2024）

该数据集是中国区域2000至2024年月度植被覆盖度产品，空间分辨率250米，合成方式采用月最大值合成，每年12期，共299期。本产品采用基于归一化植被指数（NDVI）像元二分模型，根据土地利用类型确定纯植被像元值和纯裸土像元值，实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中，NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集（2000-2024）产品。通过时空变化趋势分析检验法分析，该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。

国家青藏高原科学数据中心收录

VEDAI

用于训练YOLO模型的VEDAI数据集，包含图像和标签，用于目标检测和跟踪。

github 收录