five

coallaoh/COCO-AB

收藏
Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coallaoh/COCO-AB
下载链接
链接失效反馈
官方服务:
资源简介:
COCO-AB数据集是COCO 2014训练集的扩展,增加了额外的注释副产品(AB)。该数据集包含82,765张重新注释的图像,主要用于计算机视觉领域,特别是对象检测和定位。其目的是通过记录注释过程中的额外动作和交互,提供对图像的更丰富理解,且不增加额外的注释成本。数据收集过程通过Amazon Mechanical Turk进行,确保了注释的质量和公平的补偿。

COCO-AB数据集是COCO 2014训练集的扩展,增加了额外的注释副产品(AB)。该数据集包含82,765张重新注释的图像,主要用于计算机视觉领域,特别是对象检测和定位。其目的是通过记录注释过程中的额外动作和交互,提供对图像的更丰富理解,且不增加额外的注释成本。数据收集过程通过Amazon Mechanical Turk进行,确保了注释的质量和公平的补偿。
提供机构:
coallaoh
原始信息汇总

数据集概述

基本信息

  • 标题: COCO-AB
  • 描述: COCO-AB数据集是对COCO 2014训练集的扩展,包含82,765张重新标注的图像。该数据集旨在通过记录额外的标注过程动作和交互,提供对图像更丰富的理解。
  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 100K<n<1M
  • 源数据集: HuggingFaceM4/COCO
  • 任务类别: 图像分类

收集过程

  • 收集细节: 使用Amazon Mechanical Turk (MTurk)从美国地区收集额外标注,共完成4140个HITs,其中365个被拒绝。
  • 标注者补偿: 每完成一个HIT支付2.0 USD,平均完成时间为12.1分钟,相当于每小时约9.92 USD。
  • 标注拒绝: 根据召回率、图标定位准确性、任务完成率和数据库验证等标准拒绝HITs。
  • 收集时间: 2022年1月9日至2022年1月12日。

数据模式

  • 包含字段如image_id, originalImageHeight, originalImageWidth, categories, imageHeight, imageWidth, timeSpent, actionHistories, categoryHistories, mouseTracking, worker_id, assignment_id, page_idx

使用

  • 可用于提高模型泛化性和鲁棒性,利用标注副产品无需额外标注成本。

数据集统计

  • 重新标注了82,765张图像,占COCO 2014训练集的99.98%。
  • 每HIT平均召回61.9%的类别列表,图标定位平均准确率为92.3%。

伦理和法律

  • 标注者得到公平补偿,高于美国联邦最低工资。
  • 数据收集获得IRB批准,标注者身份通过不可逆哈希函数匿名化。

维护和更新

  • 数据集将根据需要进行更新。

已知限制

  • 由于预算限制,未能达到原始工作中每个样本8次以上标注的标准。

引用信息

@inproceedings{han2023iccv, title = {Neglected Free Lunch – Learning Image Classifiers Using Annotation Byproducts}, author = {Han, Dongyoon and Choe, Junsuk and Chun, Seonghyeok and Chung, John Joon Young and Chang, Minsuk and Yun, Sangdoo and Song, Jean Y. and Oh, Seong Joon}, booktitle = {International Conference on Computer Vision (ICCV)}, year = {2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作