SK-VG

Name: SK-VG
Creator: 香港中文大学（深圳）
Published: 2023-07-21 21:06:02
License: 暂无描述

arXiv2023-07-21 更新2024-06-21 收录

下载链接：

https://github.com/zhjohnchan/SK-VG

下载链接

链接失效反馈

官方服务：

资源简介：

SK-VG数据集由香港中文大学（深圳）创建，旨在通过场景知识引导视觉定位任务，提升模型对图像和文本的推理能力。该数据集包含约40,000个参考表达式和8,000个场景故事，源自4,000张图像，每张图像包含两个场景故事和五个相关表达式。数据集的创建过程涉及图像选择和手动注释，确保数据的高质量和多样性。SK-VG数据集的应用领域广泛，特别是在视觉问答和视觉导航等任务中，有助于评估和提升机器的视觉与语言理解能力。

The SK-VG dataset was created by The Chinese University of Hong Kong, Shenzhen, aiming to enhance models' reasoning abilities for images and texts by leveraging scene knowledge to guide visual grounding tasks. This dataset contains approximately 40,000 referring expressions and 8,000 scene stories, sourced from 4,000 images, with each image paired with two scene stories and five corresponding referring expressions. The dataset construction process involves image selection and manual annotation to ensure high data quality and diversity. SK-VG has a wide range of application scenarios, especially in tasks such as visual question answering (VQA) and visual navigation, where it helps evaluate and improve machines' visual and language understanding capabilities.

提供机构：

香港中文大学（深圳）

创建时间：

2023-07-21

搜集汇总

数据集介绍

构建方式

SK-VG数据集的构建始于对图像的精心筛选，选取了Visual Commonsense Reasoning数据集中超过110,000张电影场景图像，通过人工过滤最终保留了4,000张满足人物丰富、物体多样、场景复杂要求的图片。标注过程分为两个阶段：首先，标注员需为每张图像撰写两段不同的场景故事，这些故事既要基于图像内容，又需超越视觉信息，融入人物关系、心理状态等背景；其次，针对每段故事，标注员撰写五条与故事高度相关的查询表达式，并标注对应的目标物体边界框。查询表达式的设计严格遵循知识相关性、唯一性和多样性原则，确保其不能仅凭视觉特征区分，而是必须依赖场景知识进行推理。

特点

SK-VG数据集的核心特点在于其引入场景知识作为视觉定位的额外输入，将传统视觉定位任务从简单的视觉-语言对齐提升为需要多跳推理的复杂任务。数据集中场景故事的平均长度在50至70个单词之间，要求模型具备长距离依赖捕获能力。目标物体类别不受限制，涵盖广泛且表达多样，增加了识别与定位的难度。物体尺寸分布广泛，大型物体占主导。测试集按难度分为简单、中等、困难三个等级，困难样本的查询表达式完全依赖场景知识，几乎不提供视觉线索，对模型的推理能力提出了严峻挑战。

使用方法

SK-VG数据集的使用方法围绕（图像、场景知识、查询）三元组展开。研究者可基于此基准评估模型的场景知识推理能力。论文提出了两种基线方法：一是单阶段方法KeViLI，先将场景知识嵌入图像特征，再通过Transformer进行图像-查询交互，直接预测边界框；二是两阶段方法LeViLM，先利用预训练模型生成区域提议，再借助语言结构信息（如依存句法分析和共指消解）计算区域与实体的匹配分数。实验表明，全微调下的LeViLM结合场景知识能显著提升性能，尤其在困难样本上仍有改进空间。数据集和代码已开源，便于社区复现与拓展。

背景与挑战

背景概述

视觉定位（Visual Grounding）旨在建立视觉与语言之间的细粒度对齐，是评估多模态模型理解与推理能力的关键任务。然而，现有基准数据集如RefCOCO、RefCOCO+等，其查询文本多为简单的视觉描述，模型仅需浅层感知匹配即可完成定位，难以衡量真正的语义推理能力。为突破这一局限，香港中文大学（深圳）、中山大学及腾讯AI Lab的研究人员于2023年提出了SK-VG（Scene Knowledge-guided Visual Grounding）数据集。该数据集包含约4,000张电影场景图像、8,000段场景故事及近40,000条指代表达，要求模型在理解图像与查询的同时，必须借助长文本场景知识进行多跳推理，从而推动视觉定位从感知层面迈向认知层面的研究范式转变。

当前挑战

SK-VG数据集所面临的挑战主要体现在三个方面。领域问题层面，传统视觉定位任务仅需图像与查询的简单对齐，而SK-VG要求模型在图像、场景知识与查询的三元组输入中进行复杂推理，特别是处理开放式的指代表达和长文本叙事，这对模型的长程依赖捕获与多跳推理能力构成了严峻考验。构建过程层面，数据集标注极具挑战性：每张图像需由标注者创作两段不同的场景故事，并基于故事撰写五条与知识高度相关、视觉上不可区分的指代查询，同时保证指代的唯一性与多样性；此外，标注过程耗时巨大，且不同标注者的文化背景与想象力差异可能导致场景知识的主观偏差。

常用场景

经典使用场景

SK-VG数据集专为场景知识引导的视觉定位任务而设计，其经典使用场景在于评估模型在图像、场景知识与查询三元组上的推理能力。不同于传统视觉定位数据集仅依赖简单的描述文本，SK-VG要求模型理解长篇幅的场景故事，从中提取关键线索以精准定位目标对象。例如，模型需根据“Jake的酒杯”这一查询，结合故事中关于人物身份与关系的描述，在图像中定位目标。该数据集通过设置易、中、难三个难度等级，系统性地检验模型在不同知识依赖程度下的表现，成为衡量视觉与语言联合推理能力的标杆。

解决学术问题

SK-VG数据集解决了现有视觉定位基准缺乏复杂推理评估的学术困境。传统数据集如RefCOCO仅关注视觉外观与空间位置的简单对齐，导致模型无需深层语义理解即可达到优异性能。SK-VG引入场景知识，迫使模型进行多跳推理，以弥合图像感知表征与文本认知表征之间的鸿沟。该数据集揭示了当前模型在硬难度样本上的显著不足，推动了视觉定位研究从感知层面向认知层面的跃迁，为评估机器在开放场景中的理解与推理能力提供了关键基准。

衍生相关工作

SK-VG数据集催生了若干经典工作，包括KeViLI与LeViLM两种代表性方法。KeViLI采用单阶段架构，通过交叉注意力机制将场景知识嵌入图像特征，再与查询交互以直接预测边界框。LeViLM则采用两阶段策略，先利用预训练模型生成区域提议，再借助依存句法分析与共指消解提取结构化语言信息，计算区域与实体匹配分数。此外，该数据集启发了后续研究探索知识蒸馏、多模态预训练等技术，以增强模型对长文本场景故事的理解，推动了视觉定位领域从感知向推理的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集