coallaoh/COCO-AB
收藏Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coallaoh/COCO-AB
下载链接
链接失效反馈官方服务:
资源简介:
COCO-AB数据集是COCO 2014训练集的扩展,增加了额外的注释副产品(AB)。该数据集包含82,765张重新注释的图像,主要用于计算机视觉领域,特别是对象检测和定位。其目的是通过记录注释过程中的额外动作和交互,提供对图像的更丰富理解,且不增加额外的注释成本。数据收集过程通过Amazon Mechanical Turk进行,确保了注释的质量和公平的补偿。
COCO-AB数据集是COCO 2014训练集的扩展,增加了额外的注释副产品(AB)。该数据集包含82,765张重新注释的图像,主要用于计算机视觉领域,特别是对象检测和定位。其目的是通过记录注释过程中的额外动作和交互,提供对图像的更丰富理解,且不增加额外的注释成本。数据收集过程通过Amazon Mechanical Turk进行,确保了注释的质量和公平的补偿。
提供机构:
coallaoh
原始信息汇总
数据集概述
基本信息
- 标题: COCO-AB
- 描述: COCO-AB数据集是对COCO 2014训练集的扩展,包含82,765张重新标注的图像。该数据集旨在通过记录额外的标注过程动作和交互,提供对图像更丰富的理解。
- 语言: 英语
- 许可证: Apache-2.0
- 多语言性: 单语种
- 大小: 100K<n<1M
- 源数据集: HuggingFaceM4/COCO
- 任务类别: 图像分类
收集过程
- 收集细节: 使用Amazon Mechanical Turk (MTurk)从美国地区收集额外标注,共完成4140个HITs,其中365个被拒绝。
- 标注者补偿: 每完成一个HIT支付2.0 USD,平均完成时间为12.1分钟,相当于每小时约9.92 USD。
- 标注拒绝: 根据召回率、图标定位准确性、任务完成率和数据库验证等标准拒绝HITs。
- 收集时间: 2022年1月9日至2022年1月12日。
数据模式
- 包含字段如
image_id,originalImageHeight,originalImageWidth,categories,imageHeight,imageWidth,timeSpent,actionHistories,categoryHistories,mouseTracking,worker_id,assignment_id,page_idx。
使用
- 可用于提高模型泛化性和鲁棒性,利用标注副产品无需额外标注成本。
数据集统计
- 重新标注了82,765张图像,占COCO 2014训练集的99.98%。
- 每HIT平均召回61.9%的类别列表,图标定位平均准确率为92.3%。
伦理和法律
- 标注者得到公平补偿,高于美国联邦最低工资。
- 数据收集获得IRB批准,标注者身份通过不可逆哈希函数匿名化。
维护和更新
- 数据集将根据需要进行更新。
已知限制
- 由于预算限制,未能达到原始工作中每个样本8次以上标注的标准。
引用信息
@inproceedings{han2023iccv, title = {Neglected Free Lunch – Learning Image Classifiers Using Annotation Byproducts}, author = {Han, Dongyoon and Choe, Junsuk and Chun, Seonghyeok and Chung, John Joon Young and Chang, Minsuk and Yun, Sangdoo and Song, Jean Y. and Oh, Seong Joon}, booktitle = {International Conference on Computer Vision (ICCV)}, year = {2023} }



