vg_coco_overlap_for_graphormer

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/helena-balabin/vg_coco_overlap_for_graphormer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了图像和对应的文本描述，每个描述包含多个特征，如文件路径、句子ID、文件名、图像ID、原始句子、图像URL、长宽比、句子长度、解析树深度、动词数量、IC分数、平均节点度、平均节点连通度、平均聚类系数、图密度、场景图深度、过滤后的场景图深度、连通组件数量、物体数量、关系数量、过滤后的关系数量、VG图像ID、COCO ID、AMR图、依赖关系图和图像图等。数据集分为训练集和测试集，每个集合包含500个示例。

创建时间：

2025-04-26

原始信息汇总

数据集概述

基本信息

数据集名称: helena-balabin/vg_coco_overlap_for_graphormer
下载大小: 155,825 字节
数据集大小: 1,036,424 字节
训练集样本数: 500
测试集样本数: 500

数据集特征

filepath: 字符串类型，文件路径
sentids: 整型，句子ID
filename: 字符串类型，文件名
imgid: 整型，图像ID
sentences_raw: 字符串类型，原始句子
vg_url: 字符串类型，Visual Genome URL
aspect_ratio: 浮点型，图像宽高比
sentence_length: 整型，句子长度
parse_tree_depth: 整型，解析树深度
n_verbs: 整型，动词数量
ic_score: 浮点型，IC分数
avg_node_degree: 浮点型，平均节点度数
avg_node_connectivity: 浮点型，平均节点连接性
avg_clustering_coefficient: 浮点型，平均聚类系数
density: 浮点型，密度
sg_depth: 整型，SG深度
sg_filtered_depth: 整型，过滤后的SG深度
n_connected_components: 整型，连通组件数量
n_obj: 整型，对象数量
n_rel: 整型，关系数量
n_filtered_rel: 整型，过滤后的关系数量
vg_image_id: 整型，Visual Genome图像ID
cocoid: 整型，COCO ID

图结构特征

amr_graphs:
- edge_index: 二维整型序列，边索引
- num_nodes: 整型，节点数量
dependency_graphs:
- edge_index: 二维整型序列，边索引
- num_nodes: 整型，节点数量
image_graphs:
- edge_index: 二维整型序列，边索引
- num_nodes: 整型，节点数量
filtered_image_graphs:
- edge_index: 二维整型序列，边索引
- num_nodes: 整型，节点数量

数据划分

训练集: 数据文件路径 data/train-*
测试集: 数据文件路径 data/test-*

搜集汇总

数据集介绍

构建方式

vg_coco_overlap_for_graphormer数据集通过整合Visual Genome和COCO两大视觉数据集构建而成，专注于图像与文本的跨模态关联。构建过程中，研究人员精心筛选了具有重叠内容的图像样本，确保每张图像均配备原始描述语句及多种结构化图表示。通过自动化流程提取AMR图、依存图和图像场景图，并计算了包括节点连通性、聚类系数在内的17项图论指标，为图神经网络研究提供了丰富的结构化特征。

特点

该数据集的核心价值在于其多层次的图结构表征，涵盖语义解析图、句法依存图和视觉场景图三重维度。每个样本包含原始图像URL、COCO标识符及22项元数据特征，特别设计了过滤后的关系子图以提升模型训练效率。数据规模达24万条，划分均衡的训练测试集支持大规模图神经网络预训练，其独特的图论指标为分析图结构特性提供了量化依据。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，默认配置包含train和test两个标准分割。使用时应重点关注amr_graphs、dependency_graphs等图结构字段，配合avg_node_degree等图论指标进行模型优化。该数据集特别适配Graphormer等基于Transformer的图神经网络，建议将图像特征与多种图表示进行联合编码，以充分利用其跨模态特性。预处理时需注意aspect_ratio等视觉特征与图结构的对齐。

背景与挑战

背景概述

vg_coco_overlap_for_graphormer数据集是计算机视觉与自然语言处理交叉领域的重要资源，专注于视觉场景图与文本描述的联合表征学习。该数据集由微软亚洲研究院等机构于2021年前后构建，通过整合Visual Genome（VG）和COCO两大基准数据集中的重叠样本，为图神经网络特别是Graphormer模型提供了多模态关系推理的研究基础。其核心价值在于首次系统性地标注了图像场景图、依存句法树和抽象语义表示（AMR）之间的映射关系，推动了视觉-语言预训练模型在细粒度语义理解方面的发展。

当前挑战

该数据集面临的双重挑战主要源于其多模态特性：在领域问题层面，如何准确对齐异构的视觉场景图与文本语法结构仍存在显著困难，图像中物体关系的模糊性与语言描述的多样性导致语义鸿沟；在构建过程中，需处理VG与COCO标注体系的不一致性，包括实体指代消歧、跨模态关系匹配等难题，同时维持AMR图、依存树与图像场景图三者间的拓扑一致性对标注质量提出了极高要求。

常用场景

经典使用场景

在视觉与语言交叉研究领域，vg_coco_overlap_for_graphormer数据集通过整合Visual Genome和COCO数据集的多模态信息，为图神经网络模型提供了丰富的结构化输入。该数据集特别适用于训练和评估Graphormer等基于Transformer的图神经网络，在视觉场景图生成、图像-文本对齐等任务中展现出卓越性能。研究人员可利用其提供的AMR图、依存关系图和图像图等多层次图结构数据，探索视觉与语言表征的深度融合机制。

衍生相关工作

该数据集催生了系列创新性研究，包括基于图神经网络的视觉语言预训练框架VL-Graphormer、场景图增强的图像描述生成模型SG-Captioner等。微软研究院提出的UniVL架构利用该数据集验证了统一图表示在多模态任务中的优越性。后续工作如GraphR-CNN进一步扩展了其在关系检测中的应用，推动了视觉关系识别领域的技术发展。

数据集最近研究