coallaoh/ImageNet-AB
收藏Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coallaoh/ImageNet-AB
下载链接
链接失效反馈官方服务:
资源简介:
ImageNet-AB是ImageNet-1K训练集的扩展版本,通过Amazon Mechanical Turk收集额外注释,提供图像、类别标签及注释过程中的交互信息(如鼠标轨迹、点击位置、注释时间、匿名工人ID),旨在增强模型泛化与鲁棒性。
提供机构:
coallaoh
原始信息汇总
数据集概述
基本信息
- 标题: ImageNet-AB
- 描述: ImageNet-AB是ImageNet-1K训练集的扩展版本,通过添加注释副产品(AB)进行丰富。该数据集除了提供图像及其对应的类别标签外,还提供了每个输入信号在前端组件注释过程中的丰富交互历史,包括鼠标轨迹、点击位置、注释时间以及匿名化工作者ID。
数据集特性
- 语言: 英语
- 许可证: Apache-2.0
- 多语言性: 单语
- 任务类别: 图像分类
- 任务ID: 多类别图像分类
- 大小类别: 1M<n<10M
- 源数据集: ImageNet-1K
收集过程
- 收集细节: 使用Amazon Mechanical Turk(MTurk)从美国地区收集额外注释,任务设计为人类智能任务(HIT),资格批准率为90%。每个HIT包含10页注释任务,每页48个候选图像。
- 注释者补偿: 每完成一个HIT支付1.5美元,中位完成时间为9分钟,相当于约10美元/小时的工资。
- 注释拒绝: 根据召回率、选择数量、任务完成情况和数据库验证拒绝HIT。
- 收集时间: 2021年12月18日至2021年12月31日。
数据模式
- 包含图像ID、原始图像尺寸、选择状态、图像位置、交互记录(鼠标跟踪和点击)、工作者ID和任务ID等。
使用
- 注释副产品可用于提高模型泛化性和鲁棒性,无需额外注释成本。
数据集统计
- 两轮注释覆盖1,281,167个ImageNet1K训练图像,最终86.7%的图像被重新选择,99.3%的图像有注释副产品。
伦理和法律
- 注释者得到公平补偿,工资高于美国联邦最低工资。数据隐私遵循与原始ImageNet-1K相同的伦理标准,工作者ID通过不可逆哈希函数匿名化。
维护和更新
- 数据集的维护和更新将根据需要进行更新。
已知限制
- 并非所有原始ImageNet-1K数据集样本都能获得注释副产品,部分原因是原始数据集的错误,以及预算限制导致无法为每个样本获取10次以上的注释。



