five

michelecafagna26/hl-narratives

收藏
Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/michelecafagna26/hl-narratives
下载链接
链接失效反馈
官方服务:
资源简介:
High-Level Narratives (HL-Narratives)数据集将来自COCO的对象中心描述与通过T5模型自动生成的合成高层次叙述描述对齐。数据集包含14997张来自COCO的图像和134973个合成描述(每张图像3个描述),这些描述与COCO的约749984个对象中心描述对齐。高层次描述捕捉了人类对图像的抽象解释,每个描述都附带一个置信度评分,表示描述与图像的匹配程度。数据集支持的任务包括图像描述、多模态文本评分和零样本评估。数据集的创建过程包括手动注释、模型微调和合成数据生成。

High-Level Narratives (HL-Narratives)数据集将来自COCO的对象中心描述与通过T5模型自动生成的合成高层次叙述描述对齐。数据集包含14997张来自COCO的图像和134973个合成描述(每张图像3个描述),这些描述与COCO的约749984个对象中心描述对齐。高层次描述捕捉了人类对图像的抽象解释,每个描述都附带一个置信度评分,表示描述与图像的匹配程度。数据集支持的任务包括图像描述、多模态文本评分和零样本评估。数据集的创建过程包括手动注释、模型微调和合成数据生成。
提供机构:
michelecafagna26
原始信息汇总

数据集概述

数据集名称

  • 名称: HL-Naratives (High-Level Narratives Dataset)

数据集大小

  • 大小: 10K<n<100K

数据集语言

  • 语言: 英语

数据集多语言性

  • 多语言性: 单语种

数据集许可证

  • 许可证: Apache-2.0

数据集任务类别

  • 任务类别:
    • image-to-text
    • question-answering
    • zero-shot-classification

数据集任务ID

  • 任务ID: text-scoring

数据集结构

数据实例

  • 实例结构: json { "file_name": "COCO_train2014_000000000036.jpg", "captions": ["In a beach, holding an umbrella means they wont get a sunburn.", "The lady is posing with the sun umbrella, which was taken on the beach and is enjoying and getting pictures of her vacation.", "She is holding a parasol that is taken by a lake she is vacationing and is sunny."] }

数据字段

  • file_name: 原始COCO文件名
  • captions: 包含3个图像叙述标题的字符串列表

数据分割

  • 训练集: 13498张图像和121482个高层次标题
  • 测试集: 1499张图像和13491个高层次标题

数据集创建

注释创建者

  • 注释创建者: 机器生成

数据集信息

  • 分割:
    • 训练: 13498个示例
    • 测试: 1499个示例

源数据

  • 图像: COCO
  • 标题注释: 自动生成

注释过程

  • 使用T5模型进行注释生成,初始手动注释50张图像,然后通过模型生成并手动修正,最终生成14997个训练用和1499个测试用的高层次标题。

数据集使用注意事项

许可证信息

  • 图像: 遵循COCO使用条款
  • 注释: 遵循Apache-2.0许可证
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作