michelecafagna26/hl
收藏Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/michelecafagna26/hl
下载链接
链接失效反馈官方服务:
资源简介:
High-Level (HL)数据集结合了COCO数据集中的对象中心描述和通过众包收集的高层次描述,这些描述围绕三个轴:场景、动作和理由。数据集包含14997张COCO图像和134973条众包描述,每条描述都配有置信度评分,评分越高表示描述越接近常识。数据集支持的任务包括图像字幕生成、视觉问答、多模态文本评分和零样本评估。数据集的创建过程包括从COCO数据集中随机选择图像,并通过Amazon Mechanical Turk进行众包注释。数据集的结构包括图像和两个元数据jsonl文件,其中包含注释信息。数据集的创建者还讨论了数据集的一些局限性,如语法错误等。
提供机构:
michelecafagna26
原始信息汇总
数据集概述
基本信息
- 数据集名称:HL (High-Level) Dataset
- 许可证:Apache-2.0
- 语言:英语
- 多语言性:单语种
- 大小:10K<n<100K
任务与结构
- 支持的任务:
- 图像到文本
- 问答
- 零样本分类
- 文本评分
- 数据结构:
- 数据实例:包含图像文件名、场景描述、动作描述、理由描述及对象描述。
- 数据字段:包括文件名、描述文本、置信度评分、纯度评分和多样性评分。
- 数据分割:训练集包含13498个实例,测试集包含1499个实例。
数据集创建
- 来源数据:图像来自COCO,其他描述性数据通过众包方式收集。
- 注释过程:通过Amazon Mechanical Turk进行众包注释,每个图像由三个不同的注释者进行注释。
- 注释内容:包括场景、动作和理由的高级描述,每项描述附带一个置信度评分。
使用注意事项
- 数据质量:部分文本存在语法错误,已由专家进行修正。
- 版权与许可:图像和对象描述遵循COCO的使用条款,其他注释遵循Apache-2.0许可。
联系方式
- 联系人:Michele Cafagna
- 邮箱:michele.cafagna@um.edu.mt



