AhmedSSabir/Textual-Image-Caption-Dataset

Name: AhmedSSabir/Textual-Image-Caption-Dataset
Creator: AhmedSSabir
Published: 2024-02-20 18:55:26
License: 暂无描述

Hugging Face2024-02-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AhmedSSabir/Textual-Image-Caption-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

现代图像描述技术依赖于从图像中提取知识，如物体，以捕捉图像中的静态故事概念。本文提出了一个用于描述的文本视觉上下文数据集，其中公开可用的COCO caption数据集（Lin et al., 2014）被扩展了场景信息（如图像中的物体）。由于这些信息以文本形式存在，它可以用于利用任何NLP任务，如文本相似性或语义关系方法，进入描述系统，无论是作为端到端的训练策略还是基于后处理的方法。

提供机构：

AhmedSSabir

原始信息汇总

数据集概述

任务类别

图像到文本（image-to-text）
图像分类（image-classification）
视觉问答（visual-question-answering）
句子相似度（sentence-similarity）

语言

英语（en）

数据集名称

图像标注语言基础视觉语义

数据集更新

2023年10月更新，添加了v2版本，使用最新的SOTA模型swinV2 classifier，用于soft和hard标签的visual_caption_cosine_score_v2，包含person标签（0.2, 0.3和0.4）。

数据集内容

扩展了公开数据集COCO caption（Lin et al., 2014），增加了场景信息（如图像中的物体），以文本形式提供，可用于NLP任务，如文本相似度或语义关系方法。

数据集处理方法

使用ResNet152, CLIP, 和 Faster R-CNN提取图像的对象信息。
采用三种过滤方法确保数据集质量：
1. 阈值过滤：排除对象分类器不够自信的预测。
2. 语义对齐与语义相似度：移除重复对象。
3. 语义相关性分数作为软标签：确保视觉上下文与标题有强关联。
使用Sentence-RoBERTa-sts通过余弦相似度给出软分数，并使用阈值标注最终标签（如果阈值≥0.2, 0.3, 0.4，则标记为1,0）。
使用BERT和浅层1D-CNN（Kim, 2014）估计视觉相关性分数。

数据集下载

引用信息

bibtex @article{sabir2023visual, title={Visual Semantic Relatedness Dataset for Image Captioning}, author={Sabir, Ahmed and Moreno-Noguer, Francesc and Padr{o}, Llu{\i}s}, journal={arXiv preprint arXiv:2301.08784}, year={2023} }