five

michelecafagna26/hl

收藏
Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/michelecafagna26/hl
下载链接
链接失效反馈
官方服务:
资源简介:
High-Level (HL)数据集结合了COCO数据集中的对象中心描述和通过众包收集的高层次描述,这些描述围绕三个轴:场景、动作和理由。数据集包含14997张COCO图像和134973条众包描述,每条描述都配有置信度评分,评分越高表示描述越接近常识。数据集支持的任务包括图像字幕生成、视觉问答、多模态文本评分和零样本评估。数据集的创建过程包括从COCO数据集中随机选择图像,并通过Amazon Mechanical Turk进行众包注释。数据集的结构包括图像和两个元数据jsonl文件,其中包含注释信息。数据集的创建者还讨论了数据集的一些局限性,如语法错误等。
提供机构:
michelecafagna26
原始信息汇总

数据集概述

基本信息

  • 数据集名称:HL (High-Level) Dataset
  • 许可证:Apache-2.0
  • 语言:英语
  • 多语言性:单语种
  • 大小:10K<n<100K

任务与结构

  • 支持的任务
    • 图像到文本
    • 问答
    • 零样本分类
    • 文本评分
  • 数据结构
    • 数据实例:包含图像文件名、场景描述、动作描述、理由描述及对象描述。
    • 数据字段:包括文件名、描述文本、置信度评分、纯度评分和多样性评分。
    • 数据分割:训练集包含13498个实例,测试集包含1499个实例。

数据集创建

  • 来源数据:图像来自COCO,其他描述性数据通过众包方式收集。
  • 注释过程:通过Amazon Mechanical Turk进行众包注释,每个图像由三个不同的注释者进行注释。
  • 注释内容:包括场景、动作和理由的高级描述,每项描述附带一个置信度评分。

使用注意事项

  • 数据质量:部分文本存在语法错误,已由专家进行修正。
  • 版权与许可:图像和对象描述遵循COCO的使用条款,其他注释遵循Apache-2.0许可。

联系方式

  • 联系人:Michele Cafagna
  • 邮箱:michele.cafagna@um.edu.mt
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作