Synthetic Visual Genome [SVG]

github2025-06-12 更新2025-07-01 收录

下载链接：

https://github.com/jamespark3922/SyntheticVG

下载链接

链接失效反馈

官方服务：

资源简介：

首个自动生成的大规模场景图数据集，包含多样化的开放集类别、细粒度区域和密集标注的关系。

The first automatically generated large-scale scene graph dataset, encompassing diverse open-set categories, granular regions, and densely annotated relationships.

创建时间：

2025-06-11

原始信息汇总

Synthetic Visual Genome (SVG) 数据集概述

数据集简介

名称: Synthetic Visual Genome (SVG)
描述: 首个自动生成的大规模场景图数据集，包含多样化的开放集类别、细粒度区域和密集标注的关系。
特点:
- 大规模场景图
- 多样化开放集类别
- 细粒度区域标注
- 密集关系标注

模型检查点

Robin-3b Stage 2: Hugging Face模型

快速开始

场景图生成

安装Segment Anything:

pip install git+https://github.com/facebookresearch/segment-anything.git
下载检查点:

单张图片场景图生成

python

示例代码见原始README

训练

训练脚本即将发布

待办事项

[x] 发布检查点、推理代码和演示
[x] 发布场景图生成管道代码
[ ] 发布数据集和训练脚本
[ ] 发布评估代码
[ ] 支持vllm快速推理
[ ] 发布GPT-4生成的阶段1数据代码
[ ] 发布GPT-4o场景图细化代码以生成阶段2数据

致谢

Osprey
LLaVA-v1.5
SAM
GroundingDINO

引用

bibtex @inproceedings{park2025svg, author = {Park, Jae Sung and Ma, Zixian and Li, Linjie and Zheng, Chenhao and Hsieh, Cheng-Yu and Lu, Ximing and Chandu, Khyathi and Kong, Quan and Kobori, Norimasa and Farhadi, Ali and Choi, Yejin and Krishna, Ranjay}, title = {Synthetic Visual Genome: Dense Scene Graphs at Scale with Multimodal Language Models}, booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

Synthetic Visual Genome（SVG）数据集是首个通过自动化技术生成的大规模场景图数据集，其构建过程融合了多模态语言模型的先进技术。该数据集利用GPT-4生成密集的关系数据，并通过Segment Anything（SAM）和GroundingDINO等技术实现细粒度区域分割与语义标注。构建过程中，研究人员采用了分阶段的训练策略，包括预训练、指令微调以及半监督合成场景图生成，确保了数据的高质量和多样性。

特点

SVG数据集以其开放集类别多样性、细粒度区域标注和密集关系标注而著称。数据集涵盖了丰富的场景图语义信息，能够精确捕捉图像中对象之间的复杂关系。此外，SVG还提供了高质量的视觉与文本对齐数据，为场景理解、视觉问答等任务提供了强有力的支持。其独特之处在于完全自动化生成，避免了传统人工标注的高成本与主观性。

使用方法

SVG数据集的使用方法灵活多样，用户可通过Hugging Face平台直接下载数据集。数据集支持场景图生成任务，用户可利用提供的Robin-3B模型和SAM工具链，对单张图像进行场景图解析。具体流程包括区域生成、语义标注和关系提取，最终输出可视化的场景图及结构化数据。研究人员还可通过提供的训练脚本对模型进行微调，以适应特定任务需求。

背景与挑战

背景概述

Synthetic Visual Genome（SVG）数据集是2025年由Jae Sung Park等研究人员在IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)上首次提出的。作为首个自动生成的大规模场景图数据集，SVG以其多样化的开放集类别、细粒度区域划分和密集标注的关系网络，填补了场景图生成领域的空白。该数据集由AntGroup-MI等机构联合开发，基于多模态语言模型（如GPT-4）生成，旨在推动视觉与语言交叉领域的研究。其创新性体现在通过自动化流程构建高质量场景图，显著降低了传统人工标注的成本，为图像理解、视觉推理等任务提供了新的基准。

当前挑战

SVG数据集面临的核心挑战包括两方面：在领域问题层面，场景图生成需解决开放集类别识别、细粒度关系建模等复杂任务，传统方法难以平衡覆盖范围与标注精度；在构建过程中，自动化生成面临多模态对齐的难题，如文本描述与视觉区域的精准匹配，以及GPT-4生成结果的噪声过滤。此外，大规模数据合成还需克服计算资源消耗、生成结果多样性控制等技术瓶颈，这些挑战直接影响数据集在真实场景中的适用性。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，Synthetic Visual Genome (SVG) 数据集通过自动化生成的场景图结构，为视觉关系理解任务提供了全新的研究范式。该数据集最典型的应用体现在密集场景图生成任务中，研究者可利用其丰富的开放集类别和细粒度区域标注，训练模型精准识别图像中物体间的语义关系，例如空间方位、动作交互等复杂关联。

解决学术问题

SVG数据集有效解决了传统视觉关系检测中标注成本高昂、关系类别有限等核心问题。其通过大规模合成数据突破了真实场景图数据的长尾分布限制，为开放词汇关系预测、零样本场景理解等前沿方向提供了基准测试平台。该数据集显著提升了模型对隐含语义关系的推理能力，推动了视觉语言预训练领域的范式革新。

衍生相关工作

基于SVG数据集衍生的创新研究包括多模态关系推理框架SceneGraphGPT，以及开放集场景理解系统OpenSG。这些工作通过结合CLIP视觉编码器与大型语言模型，开创了基于文本提示的交互式场景图编辑新范式。CVPR 2025最佳论文候选工作《RelationPrompt》进一步利用SVG数据实现了无需微调的跨模态关系检测。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集