michelecafagna26/hl-narratives
收藏Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/michelecafagna26/hl-narratives
下载链接
链接失效反馈官方服务:
资源简介:
High-Level Narratives (HL-Narratives)数据集将来自COCO的对象中心描述与通过T5模型自动生成的合成高层次叙述描述对齐。数据集包含14997张来自COCO的图像和134973个合成描述(每张图像3个描述),这些描述与COCO的约749984个对象中心描述对齐。高层次描述捕捉了人类对图像的抽象解释,每个描述都附带一个置信度评分,表示描述与图像的匹配程度。数据集支持的任务包括图像描述、多模态文本评分和零样本评估。数据集的创建过程包括手动注释、模型微调和合成数据生成。
High-Level Narratives (HL-Narratives)数据集将来自COCO的对象中心描述与通过T5模型自动生成的合成高层次叙述描述对齐。数据集包含14997张来自COCO的图像和134973个合成描述(每张图像3个描述),这些描述与COCO的约749984个对象中心描述对齐。高层次描述捕捉了人类对图像的抽象解释,每个描述都附带一个置信度评分,表示描述与图像的匹配程度。数据集支持的任务包括图像描述、多模态文本评分和零样本评估。数据集的创建过程包括手动注释、模型微调和合成数据生成。
提供机构:
michelecafagna26
原始信息汇总
数据集概述
数据集名称
- 名称: HL-Naratives (High-Level Narratives Dataset)
数据集大小
- 大小: 10K<n<100K
数据集语言
- 语言: 英语
数据集多语言性
- 多语言性: 单语种
数据集许可证
- 许可证: Apache-2.0
数据集任务类别
- 任务类别:
- image-to-text
- question-answering
- zero-shot-classification
数据集任务ID
- 任务ID: text-scoring
数据集结构
数据实例
- 实例结构: json { "file_name": "COCO_train2014_000000000036.jpg", "captions": ["In a beach, holding an umbrella means they wont get a sunburn.", "The lady is posing with the sun umbrella, which was taken on the beach and is enjoying and getting pictures of her vacation.", "She is holding a parasol that is taken by a lake she is vacationing and is sunny."] }
数据字段
- file_name: 原始COCO文件名
- captions: 包含3个图像叙述标题的字符串列表
数据分割
- 训练集: 13498张图像和121482个高层次标题
- 测试集: 1499张图像和13491个高层次标题
数据集创建
注释创建者
- 注释创建者: 机器生成
数据集信息
- 分割:
- 训练: 13498个示例
- 测试: 1499个示例
源数据
- 图像: COCO
- 标题注释: 自动生成
注释过程
- 使用T5模型进行注释生成,初始手动注释50张图像,然后通过模型生成并手动修正,最终生成14997个训练用和1499个测试用的高层次标题。
数据集使用注意事项
许可证信息
- 图像: 遵循COCO使用条款
- 注释: 遵循Apache-2.0许可证



