ridgerun-ai/citw-v0.1
收藏数据集卡片:Cellphones in the Wild
数据集详情
数据集描述
CITW(Cellphones in the Wild)是一个包含图像中手机边界框标注的小型数据集。该数据集是从COCO 2017中提取的,仅保留了包含手机的图像及其对应的边界框标注。数据集的结构和标注已调整为与Huggingface兼容。
- 许可证: CC-BY-NC-2.0
数据集来源
用途
直接用途
CITW旨在用于训练手机检测器。
超出范围的用途
该数据集仅包含手机样本,不适用于其他类型的电话,如办公室电话、传真机或公共电话。
数据集结构
数据集位于data目录下,包含两个拆分:train和val,分别表示为子目录。每个拆分中包含JPEG格式的图像以及一个metadata.jsonl文件。
metadata.jsonl文件每行一个条目,每个条目代表一个图像。标注信息可以在objects对象下找到。该对象包含一个边界框列表(本身是一个列表)和一个类别列表(只有一个类别:0)。
单个边界框标注为:[x, y, width, height]。
只有一个类别:0,显然对应于手机类别。
条目示例
一个条目示例如下: json { "file_name": "000000253967.jpg", "objects": { "bbox": [ [16.31, 104.46, 33.54, 43.17], [277.55, 146.1, 17.99, 58.69], [436.56, 130.99, 23.33, 42.09] ], "categories": [0, 0, 0] } }
在这个示例中,图像包含3个手机,这反映在3个边界框和3个手机类别列表中。
数据集创建
源数据
数据收集和处理
该数据集是COCO2017的精简版。仓库中包含一个coco2citw.py脚本,用于自动化此过程。
源数据生产者
有关原始生产过程的信息,请参阅COCO Challenge主页。
个人和敏感信息
据我们所知,该数据集中没有个人和敏感信息。
偏差、风险和限制
该数据集仅限于2017年之前生产的手机型号。类似物体(如对讲机、便携式游戏机或计算器)可能会被混淆。
术语表
CITW: Cellphones in the Wild




