CIRCO|图像检索数据集|基准测试数据集
收藏CIRCO Dataset 概述
CIRCO (Composed Image Retrieval on Common Objects in context) 是一个基于 COCO 2017 无标签数据集的开放领域基准数据集,专门用于组合图像检索(CIR)。该数据集包含1020个查询,随机分为220个验证集和800个测试集,平均每个查询有4.53个真实标签。CIRCO旨在解决现有数据集中假阴性的问题,并使用mAP@K进行性能评估。
数据集下载
注释
注释文件位于 annotations
文件夹中,每个分割的JSON文件包含相应的注释列表。每个注释包括以下字段:
reference_img_id
: 参考图像的IDtarget_img_id
: 目标图像的IDrelative_caption
: 目标图像的相对描述shared_concept
: 参考和目标图像之间的共享概念gt_img_ids
: 真实标签图像的ID列表id
: 查询的IDsemantic_aspects
: 描述查询的语义方面列表
图像
CIRCO基于COCO 2017无标签数据集的图像。用户需访问COCO网站下载图像及其相应的注释。
数据结构
下载后,数据结构应如下:
CIRCO └─── annotations | test.json | val.json └─── COCO2017_unlabeled └─── annotations | image_info_unlabeled2017.json └─── unlabeled2017 | 000000243611.jpg | 000000535009.jpg | 000000097553.jpg | ...
测试评估服务器
CIRCO测试集的真实标签不公开,而是通过评估服务器进行模型评估。服务器接受JSON格式的提交文件,其中键为查询ID,值为前50个检索到的图像列表。
引用
bibtex @misc{baldrati2023zeroshot, title={Zero-Shot Composed Image Retrieval with Textual Inversion}, author={Alberto Baldrati and Lorenzo Agnolucci and Marco Bertini and Alberto Del Bimbo}, year={2023}, eprint={2303.15247}, archivePrefix={arXiv}, primaryClass={cs.CV} }

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录