five

AhmedSSabir/Textual-Image-Caption-Dataset

收藏
Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AhmedSSabir/Textual-Image-Caption-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
现代图像描述技术依赖于从图像中提取知识,如物体,以捕捉图像中的静态故事概念。本文提出了一个用于描述的文本视觉上下文数据集,其中公开可用的COCO caption数据集(Lin et al., 2014)被扩展了场景信息(如图像中的物体)。由于这些信息以文本形式存在,它可以用于利用任何NLP任务,如文本相似性或语义关系方法,进入描述系统,无论是作为端到端的训练策略还是基于后处理的方法。
提供机构:
AhmedSSabir
原始信息汇总

数据集概述

任务类别

  • 图像到文本(image-to-text)
  • 图像分类(image-classification)
  • 视觉问答(visual-question-answering)
  • 句子相似度(sentence-similarity)

语言

  • 英语(en)

标签

  • 图像标注(image captioning)
  • 语言基础(language grounding)
  • 视觉语义(visual semantic)
  • 语义相似度(semantic similarity)

数据集名称

  • 图像标注 语言基础 视觉语义

数据集更新

  • 2023年10月更新,添加了v2版本,使用最新的SOTA模型swinV2 classifier,用于soft和hard标签的visual_caption_cosine_score_v2,包含person标签(0.2, 0.3和0.4)。

数据集内容

  • 扩展了公开数据集COCO caption(Lin et al., 2014),增加了场景信息(如图像中的物体),以文本形式提供,可用于NLP任务,如文本相似度或语义关系方法。

数据集处理方法

  • 使用ResNet152, CLIP, 和 Faster R-CNN提取图像的对象信息。
  • 采用三种过滤方法确保数据集质量:
    1. 阈值过滤:排除对象分类器不够自信的预测。
    2. 语义对齐与语义相似度:移除重复对象。
    3. 语义相关性分数作为软标签:确保视觉上下文与标题有强关联。
  • 使用Sentence-RoBERTa-sts通过余弦相似度给出软分数,并使用阈值标注最终标签(如果阈值≥0.2, 0.3, 0.4,则标记为1,0)。
  • 使用BERT和浅层1D-CNN(Kim, 2014)估计视觉相关性分数。

数据集下载

引用信息

bibtex @article{sabir2023visual, title={Visual Semantic Relatedness Dataset for Image Captioning}, author={Sabir, Ahmed and Moreno-Noguer, Francesc and Padr{o}, Llu{\i}s}, journal={arXiv preprint arXiv:2301.08784}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作