GroundCap
收藏arXiv2025-02-20 更新2025-02-21 收录
下载链接:
https://huggingface.co/datasets/daniel3303/GroundCap
下载链接
链接失效反馈官方服务:
资源简介:
GroundCap是由INESC-ID Lisboa和Universidade de Lisboa的研究人员创建的一个视觉定位图像字幕数据集。该数据集包含来自77部电影的52,016张图像,其中包含344个由人类注释和52,016个自动生成的字幕。每个字幕都与检测到的对象(132个类别)和动作(51个类别)相关联,使用一个标签系统保持对象身份,同时将动作链接到相应的对象。该数据集旨在解决图像字幕系统中缺乏将描述性文本链接到特定视觉元素的问题。
GroundCap is a visual grounding image captioning dataset created by researchers from INESC-ID Lisboa and Universidade de Lisboa. It contains 52,016 images sourced from 77 films, paired with 344 human-annotated captions and 52,016 automatically generated captions. Each caption is associated with detected objects (132 categories) and actions (51 categories), adopting a labeling system that maintains object identities while linking actions to their corresponding objects. This dataset aims to address the limitation that existing image captioning systems lack the ability to connect descriptive text to specific visual elements.
提供机构:
INESC-ID Lisboa, Instituto Superior Técnico, Universidade de Lisboa
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
GroundCap数据集的构建基于从77部电影中提取的52,016张图像,这些图像涵盖了丰富的场景和动作。首先,从MovieNet数据集中筛选出包含丰富元数据的电影,并从中选取包含动作和地点标签的场景。接着,使用Mask2Former模型进行对象检测,该模型能够同时检测和分割“thing”类(特定对象)和“stuff”类(背景元素)。对于“thing”类,直接计算边界框;对于“stuff”类,则采用K-means聚类方法生成多个边界框。此外,还为每个检测到的对象分配了唯一的ID,以便在描述中保持对象的连续性。最后,通过多阶段语言模型(LLM)管道结合自动生成和人工细化的方式进行图像描述的生成,并使用gMETEOR指标进行质量评估。
特点
GroundCap数据集的特点在于其图像描述与视觉元素紧密关联。每个图像描述都明确地与检测到的对象(132个类别)和动作(51个类别)相关联,通过标签系统将文本描述链接到多个视觉元素。此外,GroundCap数据集还引入了gMETEOR指标,该指标结合了图像描述的质量和定位的准确性。此外,该数据集还包含了由人类专家细化的图像描述,为模型训练提供了高质量的数据。
使用方法
使用GroundCap数据集时,首先需要使用Mask2Former模型进行对象检测和分割,为图像中的每个对象分配唯一的ID。然后,通过多阶段LLM管道生成图像描述,并使用gMETEOR指标进行质量评估。为了提高描述的准确性,可以对自动生成的描述进行人工细化。此外,还可以使用ChatGPT-4o模型对生成的描述进行评估,以提高评估的可靠性和可扩展性。
背景与挑战
背景概述
GroundCap数据集是一项创新性的研究成果,由INESC-ID Lisboa和Instituto Superior Técico, Universidade de Lisboa的研究团队于2025年提出。该数据集旨在解决当前图像描述系统无法将描述性文本与图像中的具体视觉元素相链接的问题。GroundCap包含52,016张来自77部电影的图像,以及344个人工注释和52,016个自动生成的描述。每个描述都与检测到的对象(132个类别)和动作(51个类别)相链接,使用一个标签系统来保持对象身份并链接动作到相应的对象。该数据集对相关领域产生了深远的影响,特别是在图像描述、对象检测和视觉-语言对齐方面。
当前挑战
GroundCap数据集面临的挑战包括如何将描述性文本与图像中的具体视觉元素相链接,以及如何追踪多个引用中的对象身份。此外,构建过程中也遇到了一些挑战,例如如何从电影中选择合适的场景和帧,如何进行精确的对象检测和分割,以及如何生成高质量的描述性文本。为了解决这些挑战,GroundCap采用了基于ID的接地系统,该系统能够持续追踪对象引用并链接动作和对象。此外,GroundCap还提出了gMETEOR指标,该指标结合了描述质量与接地精度,以评估接地描述的质量。
常用场景
经典使用场景
GroundCap数据集在图像描述领域的经典使用场景是作为视觉基础图像描述任务的数据集。该数据集包含了从77部电影中提取的52,016张图像,以及344个人工标注和52,016个自动生成的描述。每个描述都与检测到的对象(132个类别)和动作(51个类别)相接地,使用一个标签系统来保持对象身份并链接动作到相应的对象。这种设计使得GroundCap成为研究视觉基础图像描述任务的重要资源。
解决学术问题
GroundCap数据集解决了视觉基础图像描述任务中缺乏能够将描述性文本与特定视觉元素链接起来的系统的学术研究问题。当前的图像描述系统无法跨多个引用跟踪对象身份,或同时接地对象和动作。GroundCap通过引入一个基于ID的接地系统,使得一致的对象引用跟踪和动作-对象链接成为可能。此外,GroundCap还通过K-means聚类分割背景元素,进一步提高了图像描述的准确性。这些创新使得GroundCap成为解决视觉基础图像描述任务中的常见学术研究问题的关键。
衍生相关工作
GroundCap数据集的衍生相关工作包括基于GroundCap的数据集和模型。基于GroundCap的数据集可以用于研究视觉基础图像描述任务中的其他问题,例如图像分类、物体检测和动作识别等。基于GroundCap的模型可以用于解决视觉基础图像描述任务中的其他问题,例如图像生成、视频描述和对话系统等。这些衍生相关工作进一步推动了视觉基础图像描述任务的发展。
以上内容由遇见数据集搜集并总结生成



