five

Synthetic Visual Genome [SVG]

收藏
github2025-06-12 更新2025-07-01 收录
下载链接:
https://github.com/jamespark3922/SyntheticVG
下载链接
链接失效反馈
官方服务:
资源简介:
首个自动生成的大规模场景图数据集,包含多样化的开放集类别、细粒度区域和密集标注的关系。

The first automatically generated large-scale scene graph dataset, encompassing diverse open-set categories, granular regions, and densely annotated relationships.
创建时间:
2025-06-11
原始信息汇总

Synthetic Visual Genome (SVG) 数据集概述

数据集简介

  • 名称: Synthetic Visual Genome (SVG)
  • 描述: 首个自动生成的大规模场景图数据集,包含多样化的开放集类别、细粒度区域和密集标注的关系。
  • 特点:
    • 大规模场景图
    • 多样化开放集类别
    • 细粒度区域标注
    • 密集关系标注

相关资源

模型检查点

快速开始

场景图生成

  1. 安装Segment Anything:

    pip install git+https://github.com/facebookresearch/segment-anything.git

  2. 下载检查点:

单张图片场景图生成

python

示例代码见原始README

训练

  • 训练脚本即将发布

待办事项

  • [x] 发布检查点、推理代码和演示
  • [x] 发布场景图生成管道代码
  • [ ] 发布数据集和训练脚本
  • [ ] 发布评估代码
  • [ ] 支持vllm快速推理
  • [ ] 发布GPT-4生成的阶段1数据代码
  • [ ] 发布GPT-4o场景图细化代码以生成阶段2数据

致谢

  • Osprey
  • LLaVA-v1.5
  • SAM
  • GroundingDINO

引用

bibtex @inproceedings{park2025svg, author = {Park, Jae Sung and Ma, Zixian and Li, Linjie and Zheng, Chenhao and Hsieh, Cheng-Yu and Lu, Ximing and Chandu, Khyathi and Kong, Quan and Kobori, Norimasa and Farhadi, Ali and Choi, Yejin and Krishna, Ranjay}, title = {Synthetic Visual Genome: Dense Scene Graphs at Scale with Multimodal Language Models}, booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2025} }

搜集汇总
数据集介绍
构建方式
Synthetic Visual Genome(SVG)数据集是首个通过自动化技术生成的大规模场景图数据集,其构建过程融合了多模态语言模型的先进技术。该数据集利用GPT-4生成密集的关系数据,并通过Segment Anything(SAM)和GroundingDINO等技术实现细粒度区域分割与语义标注。构建过程中,研究人员采用了分阶段的训练策略,包括预训练、指令微调以及半监督合成场景图生成,确保了数据的高质量和多样性。
特点
SVG数据集以其开放集类别多样性、细粒度区域标注和密集关系标注而著称。数据集涵盖了丰富的场景图语义信息,能够精确捕捉图像中对象之间的复杂关系。此外,SVG还提供了高质量的视觉与文本对齐数据,为场景理解、视觉问答等任务提供了强有力的支持。其独特之处在于完全自动化生成,避免了传统人工标注的高成本与主观性。
使用方法
SVG数据集的使用方法灵活多样,用户可通过Hugging Face平台直接下载数据集。数据集支持场景图生成任务,用户可利用提供的Robin-3B模型和SAM工具链,对单张图像进行场景图解析。具体流程包括区域生成、语义标注和关系提取,最终输出可视化的场景图及结构化数据。研究人员还可通过提供的训练脚本对模型进行微调,以适应特定任务需求。
背景与挑战
背景概述
Synthetic Visual Genome(SVG)数据集是2025年由Jae Sung Park等研究人员在IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)上首次提出的。作为首个自动生成的大规模场景图数据集,SVG以其多样化的开放集类别、细粒度区域划分和密集标注的关系网络,填补了场景图生成领域的空白。该数据集由AntGroup-MI等机构联合开发,基于多模态语言模型(如GPT-4)生成,旨在推动视觉与语言交叉领域的研究。其创新性体现在通过自动化流程构建高质量场景图,显著降低了传统人工标注的成本,为图像理解、视觉推理等任务提供了新的基准。
当前挑战
SVG数据集面临的核心挑战包括两方面:在领域问题层面,场景图生成需解决开放集类别识别、细粒度关系建模等复杂任务,传统方法难以平衡覆盖范围与标注精度;在构建过程中,自动化生成面临多模态对齐的难题,如文本描述与视觉区域的精准匹配,以及GPT-4生成结果的噪声过滤。此外,大规模数据合成还需克服计算资源消耗、生成结果多样性控制等技术瓶颈,这些挑战直接影响数据集在真实场景中的适用性。
常用场景
经典使用场景
在计算机视觉与多模态学习领域,Synthetic Visual Genome (SVG) 数据集通过自动化生成的场景图结构,为视觉关系理解任务提供了全新的研究范式。该数据集最典型的应用体现在密集场景图生成任务中,研究者可利用其丰富的开放集类别和细粒度区域标注,训练模型精准识别图像中物体间的语义关系,例如空间方位、动作交互等复杂关联。
解决学术问题
SVG数据集有效解决了传统视觉关系检测中标注成本高昂、关系类别有限等核心问题。其通过大规模合成数据突破了真实场景图数据的长尾分布限制,为开放词汇关系预测、零样本场景理解等前沿方向提供了基准测试平台。该数据集显著提升了模型对隐含语义关系的推理能力,推动了视觉语言预训练领域的范式革新。
衍生相关工作
基于SVG数据集衍生的创新研究包括多模态关系推理框架SceneGraphGPT,以及开放集场景理解系统OpenSG。这些工作通过结合CLIP视觉编码器与大型语言模型,开创了基于文本提示的交互式场景图编辑新范式。CVPR 2025最佳论文候选工作《RelationPrompt》进一步利用SVG数据实现了无需微调的跨模态关系检测。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作