five

coallaoh/ImageNet-AB

收藏
Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coallaoh/ImageNet-AB
下载链接
链接失效反馈
官方服务:
资源简介:
ImageNet-AB是ImageNet-1K训练集的扩展版本,通过Amazon Mechanical Turk收集额外注释,提供图像、类别标签及注释过程中的交互信息(如鼠标轨迹、点击位置、注释时间、匿名工人ID),旨在增强模型泛化与鲁棒性。
提供机构:
coallaoh
原始信息汇总

数据集概述

基本信息

  • 标题: ImageNet-AB
  • 描述: ImageNet-AB是ImageNet-1K训练集的扩展版本,通过添加注释副产品(AB)进行丰富。该数据集除了提供图像及其对应的类别标签外,还提供了每个输入信号在前端组件注释过程中的丰富交互历史,包括鼠标轨迹、点击位置、注释时间以及匿名化工作者ID。

数据集特性

  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语
  • 任务类别: 图像分类
  • 任务ID: 多类别图像分类
  • 大小类别: 1M<n<10M
  • 源数据集: ImageNet-1K

收集过程

  • 收集细节: 使用Amazon Mechanical Turk(MTurk)从美国地区收集额外注释,任务设计为人类智能任务(HIT),资格批准率为90%。每个HIT包含10页注释任务,每页48个候选图像。
  • 注释者补偿: 每完成一个HIT支付1.5美元,中位完成时间为9分钟,相当于约10美元/小时的工资。
  • 注释拒绝: 根据召回率、选择数量、任务完成情况和数据库验证拒绝HIT。
  • 收集时间: 2021年12月18日至2021年12月31日。

数据模式

  • 包含图像ID、原始图像尺寸、选择状态、图像位置、交互记录(鼠标跟踪和点击)、工作者ID和任务ID等。

使用

  • 注释副产品可用于提高模型泛化性和鲁棒性,无需额外注释成本。

数据集统计

  • 两轮注释覆盖1,281,167个ImageNet1K训练图像,最终86.7%的图像被重新选择,99.3%的图像有注释副产品。

伦理和法律

  • 注释者得到公平补偿,工资高于美国联邦最低工资。数据隐私遵循与原始ImageNet-1K相同的伦理标准,工作者ID通过不可逆哈希函数匿名化。

维护和更新

  • 数据集的维护和更新将根据需要进行更新。

已知限制

  • 并非所有原始ImageNet-1K数据集样本都能获得注释副产品,部分原因是原始数据集的错误,以及预算限制导致无法为每个样本获取10次以上的注释。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作