Synthetic_Visual_Genome2

Hugging Face2026-02-18 更新2026-02-19 收录

下载链接：

https://huggingface.co/datasets/UWGZQ/Synthetic_Visual_Genome2

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic Visual Genome 2 (SVG2) 是一个大规模的全景视频场景图数据集，包含对象标签、属性、关系和实例级分割掩码。数据集分为两个来源：PVD（约594K视频）和 SA-V（约47K视频）。数据规模在1M到10M之间。数据集的主要字段包括视频标识符（video_id）、来源（source）、对象信息（objects，以JSON格式存储的标签和属性）和关系信息（relationships，以JSON格式存储的主体、谓词、客体及时间范围）。此外，还提供单独的掩码数据下载，包括视频标识符、掩码高度和宽度、帧数、对象数以及COCO RLE计数字符串。该数据集适用于视频分类和视觉问答等任务。

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，大规模标注数据对于场景理解模型的训练至关重要。Synthetic Visual Genome 2（SVG2）数据集的构建采用了创新的合成方法，从PVD和SA-V两个视频源中自动提取全景时空场景图。该过程涉及对视频内容进行深度解析，生成包含对象标签、属性、关系以及实例级分割掩码的结构化标注，最终形成了包含数百万视频样本的大规模数据集，为复杂视觉任务提供了丰富的语义基础。

特点

该数据集的核心特点在于其全景时空场景图的表示能力，不仅提供了静态的对象与属性信息，更捕捉了动态视频中对象间的时空关系。数据集涵盖约63.6万条视频，每条数据均附有精细的实例分割掩码，并以高效的压缩格式存储，确保了数据使用的便捷性与计算效率。这种结构化的多模态标注方式，使其成为视频分类、视觉问答等前沿研究领域的宝贵资源。

使用方法

研究人员可通过Hugging Face的`datasets`库直接加载数据集的清洗版本，并选择特定源如`cleaned_pvd`进行访问。标注数据与分割掩码分别存储，掩码以Zstd压缩的Parquet格式提供，可通过PyArrow读取并利用pycocotools工具进行解码重构。这种分离存储与标准化接口设计，极大便利了大规模视觉场景图数据的实验与模型开发流程。

背景与挑战

背景概述

Synthetic Visual Genome 2（SVG2）是由华盛顿大学等研究机构于2026年发布的大规模全景视频场景图数据集，旨在推动计算机视觉领域对时空场景理解的研究。该数据集通过合成方法构建，涵盖了约63.6万个视频，提供了对象标签、属性、关系及实例级分割掩码，核心研究问题聚焦于从视频中提取大规模时空场景图，以支持视频分类、视觉问答等任务。其设计灵感源于原始Visual Genome数据集，但扩展至视频域，为场景图生成、视频语义解析等方向提供了关键数据支撑，显著提升了模型对动态场景中对象交互的建模能力。

当前挑战

SVG2致力于解决视频场景图生成这一复杂领域问题，其挑战在于如何准确捕捉视频中对象间的时空关系，并处理动态环境下的遮挡、运动模糊及长期依赖。构建过程中，数据集面临合成数据真实性与多样性的平衡难题，需确保生成的场景图在语义上连贯且符合物理规律；同时，大规模视频标注涉及高效存储与处理实例级掩码，对计算资源与数据压缩技术提出了较高要求。这些挑战共同推动了视频场景理解方法在鲁棒性与可扩展性方面的进步。

常用场景

经典使用场景

在计算机视觉与人工智能领域，Synthetic Visual Genome 2（SVG2）作为一个大规模的全景视频场景图数据集，其经典使用场景聚焦于时空场景理解与推理。该数据集通过提供对象标签、属性、关系及实例级分割掩码，为视频内容的结构化解析奠定了数据基础。研究者可借助其丰富的标注信息，训练模型以识别视频中动态对象的交互关系，进而推动视频场景图生成、视觉问答等任务的发展，尤其在处理复杂时空上下文时展现出独特价值。

解决学术问题

SVG2数据集主要解决了视频场景理解中标注数据稀缺与时空关系建模困难两大核心学术问题。传统视频数据集往往缺乏细粒度的对象关系与实例分割信息，而SVG2通过合成方法生成了大规模、高质量的时空场景图标注，弥补了这一空白。其意义在于为视频级场景图解析、动态关系推理等前沿研究方向提供了可靠的数据支撑，促进了视觉语言模型在时空维度上的能力提升，对推动具身智能与跨模态理解具有深远影响。

衍生相关工作

围绕SVG2数据集，已衍生出多项经典研究工作，主要集中在视频场景图生成、时空关系预测与跨模态推理等方向。例如，部分研究利用其标注训练端到端的视频场景图检测模型，以提升动态关系识别的精度；另一些工作则结合视觉问答任务，探索基于场景图的视频问答系统。这些工作不仅验证了数据集的有效性，还进一步拓展了其在多模态学习、机器人感知等领域的应用边界，形成了持续的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集