ridgerun-ai/citw-v0.1|目标检测数据集|手机检测数据集
收藏数据集卡片:Cellphones in the Wild
数据集详情
数据集描述
CITW(Cellphones in the Wild)是一个包含图像中手机边界框标注的小型数据集。该数据集是从COCO 2017中提取的,仅保留了包含手机的图像及其对应的边界框标注。数据集的结构和标注已调整为与Huggingface兼容。
- 许可证: CC-BY-NC-2.0
数据集来源
用途
直接用途
CITW旨在用于训练手机检测器。
超出范围的用途
该数据集仅包含手机样本,不适用于其他类型的电话,如办公室电话、传真机或公共电话。
数据集结构
数据集位于data目录下,包含两个拆分:train和val,分别表示为子目录。每个拆分中包含JPEG格式的图像以及一个metadata.jsonl文件。
metadata.jsonl文件每行一个条目,每个条目代表一个图像。标注信息可以在objects对象下找到。该对象包含一个边界框列表(本身是一个列表)和一个类别列表(只有一个类别:0)。
单个边界框标注为:[x, y, width, height]。
只有一个类别:0,显然对应于手机类别。
条目示例
一个条目示例如下: json { "file_name": "000000253967.jpg", "objects": { "bbox": [ [16.31, 104.46, 33.54, 43.17], [277.55, 146.1, 17.99, 58.69], [436.56, 130.99, 23.33, 42.09] ], "categories": [0, 0, 0] } }
在这个示例中,图像包含3个手机,这反映在3个边界框和3个手机类别列表中。
数据集创建
源数据
数据收集和处理
该数据集是COCO2017的精简版。仓库中包含一个coco2citw.py脚本,用于自动化此过程。
源数据生产者
有关原始生产过程的信息,请参阅COCO Challenge主页。
个人和敏感信息
据我们所知,该数据集中没有个人和敏感信息。
偏差、风险和限制
该数据集仅限于2017年之前生产的手机型号。类似物体(如对讲机、便携式游戏机或计算器)可能会被混淆。
术语表
CITW: Cellphones in the Wild

中国区域地面气象要素驱动数据集 v2.0(1951-2024)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。
国家青藏高原科学数据中心 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国区域250米植被覆盖度数据集(2000-2024)
该数据集是中国区域2000至2024年月度植被覆盖度产品,空间分辨率250米,合成方式采用月最大值合成,每年12期,共299期。本产品采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中,NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集(2000-2024)产品。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。
国家青藏高原科学数据中心 收录
VEDAI
用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。
github 收录
