AhmedSSabir/Textual-Image-Caption-Dataset
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AhmedSSabir/Textual-Image-Caption-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
现代图像描述技术依赖于从图像中提取知识,如物体,以捕捉图像中的静态故事概念。本文提出了一个用于描述的文本视觉上下文数据集,其中公开可用的COCO caption数据集(Lin et al., 2014)被扩展了场景信息(如图像中的物体)。由于这些信息以文本形式存在,它可以用于利用任何NLP任务,如文本相似性或语义关系方法,进入描述系统,无论是作为端到端的训练策略还是基于后处理的方法。
提供机构:
AhmedSSabir
原始信息汇总
数据集概述
任务类别
- 图像到文本(image-to-text)
- 图像分类(image-classification)
- 视觉问答(visual-question-answering)
- 句子相似度(sentence-similarity)
语言
- 英语(en)
标签
- 图像标注(image captioning)
- 语言基础(language grounding)
- 视觉语义(visual semantic)
- 语义相似度(semantic similarity)
数据集名称
- 图像标注 语言基础 视觉语义
数据集更新
- 2023年10月更新,添加了v2版本,使用最新的SOTA模型swinV2 classifier,用于soft和hard标签的visual_caption_cosine_score_v2,包含person标签(0.2, 0.3和0.4)。
数据集内容
- 扩展了公开数据集COCO caption(Lin et al., 2014),增加了场景信息(如图像中的物体),以文本形式提供,可用于NLP任务,如文本相似度或语义关系方法。
数据集处理方法
- 使用ResNet152, CLIP, 和 Faster R-CNN提取图像的对象信息。
- 采用三种过滤方法确保数据集质量:
- 阈值过滤:排除对象分类器不够自信的预测。
- 语义对齐与语义相似度:移除重复对象。
- 语义相关性分数作为软标签:确保视觉上下文与标题有强关联。
- 使用Sentence-RoBERTa-sts通过余弦相似度给出软分数,并使用阈值标注最终标签(如果阈值≥0.2, 0.3, 0.4,则标记为1,0)。
- 使用BERT和浅层1D-CNN(Kim, 2014)估计视觉相关性分数。
数据集下载
引用信息
bibtex @article{sabir2023visual, title={Visual Semantic Relatedness Dataset for Image Captioning}, author={Sabir, Ahmed and Moreno-Noguer, Francesc and Padr{o}, Llu{\i}s}, journal={arXiv preprint arXiv:2301.08784}, year={2023} }



