coallaoh/COCO-AB

Name: coallaoh/COCO-AB
Creator: coallaoh
Published: 2023-07-23 18:22:22
License: 暂无描述

Hugging Face2023-07-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/coallaoh/COCO-AB

下载链接

链接失效反馈

官方服务：

资源简介：

COCO-AB数据集是COCO 2014训练集的扩展，增加了额外的注释副产品（AB）。该数据集包含82,765张重新注释的图像，主要用于计算机视觉领域，特别是对象检测和定位。其目的是通过记录注释过程中的额外动作和交互，提供对图像的更丰富理解，且不增加额外的注释成本。数据收集过程通过Amazon Mechanical Turk进行，确保了注释的质量和公平的补偿。

提供机构：

coallaoh

原始信息汇总

数据集概述

基本信息

标题: COCO-AB
描述: COCO-AB数据集是对COCO 2014训练集的扩展，包含82,765张重新标注的图像。该数据集旨在通过记录额外的标注过程动作和交互，提供对图像更丰富的理解。
语言: 英语
许可证: Apache-2.0
多语言性: 单语种
大小: 100K<n<1M
源数据集: HuggingFaceM4/COCO
任务类别: 图像分类

收集过程

收集细节: 使用Amazon Mechanical Turk (MTurk)从美国地区收集额外标注，共完成4140个HITs，其中365个被拒绝。
标注者补偿: 每完成一个HIT支付2.0 USD，平均完成时间为12.1分钟，相当于每小时约9.92 USD。
标注拒绝: 根据召回率、图标定位准确性、任务完成率和数据库验证等标准拒绝HITs。
收集时间: 2022年1月9日至2022年1月12日。

数据模式

包含字段如image_id, originalImageHeight, originalImageWidth, categories, imageHeight, imageWidth, timeSpent, actionHistories, categoryHistories, mouseTracking, worker_id, assignment_id, page_idx。

使用

可用于提高模型泛化性和鲁棒性，利用标注副产品无需额外标注成本。

数据集统计

重新标注了82,765张图像，占COCO 2014训练集的99.98%。
每HIT平均召回61.9%的类别列表，图标定位平均准确率为92.3%。

伦理和法律

标注者得到公平补偿，高于美国联邦最低工资。
数据收集获得IRB批准，标注者身份通过不可逆哈希函数匿名化。

维护和更新

数据集将根据需要进行更新。

已知限制

由于预算限制，未能达到原始工作中每个样本8次以上标注的标准。

引用信息

@inproceedings{han2023iccv, title = {Neglected Free Lunch – Learning Image Classifiers Using Annotation Byproducts}, author = {Han, Dongyoon and Choe, Junsuk and Chun, Seonghyeok and Chung, John Joon Young and Chang, Minsuk and Yun, Sangdoo and Song, Jean Y. and Oh, Seong Joon}, booktitle = {International Conference on Computer Vision (ICCV)}, year = {2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集