Text-Scene Graph Bench (TSG Bench)

Name: Text-Scene Graph Bench (TSG Bench)
Creator: 韩国延世大学 & 韩国科学技术院
Published: 2025-05-26 12:45:12
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://tsg-bench.netlify.app

下载链接

链接失效反馈

官方服务：

资源简介：

Text-Scene Graph Bench (TSG Bench) 是一个用于评估大型语言模型（LLMs）理解和生成场景图能力的基准数据集。它由120个现实世界的场景组成，包含2041个描述和4289个场景图。这些场景图以动作为中心，涵盖了18个不同的领域，如维护、烹饪和园艺。数据集由Ego-centric Action Scene Graphs (EASG) 数据集衍生而来，通过多轮人工参与的过程构建，包括LLM生成文本描述和场景图，以及人工审查和修改。TSG Bench旨在解决LLMs在多模态环境中进行空间和时间推理的问题，为动态场景理解和3D环境建模等应用提供支持。

Text-Scene Graph Bench (TSG Bench) is a benchmark dataset for evaluating the capability of large language models (LLMs) to understand and generate scene graphs. It comprises 120 real-world scenes, encompassing 2041 descriptions and 4289 scene graphs. These scene graphs are action-centric, covering 18 distinct domains such as maintenance, cooking, and gardening. The dataset is derived from the Ego-centric Action Scene Graphs (EASG) dataset, and was constructed via a multi-round human-in-the-loop workflow, which includes LLM-generated text descriptions and scene graphs, as well as manual review and revision. TSG Bench aims to address the challenges faced by LLMs in spatial and temporal reasoning within multimodal environments, providing support for applications such as dynamic scene understanding and 3D environment modeling.

提供机构：

韩国延世大学 & 韩国科学技术院

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

TSG Bench数据集通过多轮人机协作流程构建而成，其核心数据源自Ego-centric Action Scene Graphs (EASG)视频数据集。研究团队首先利用LLM将原始场景图转化为自然语言描述，经人工校验逻辑连贯性后，反向生成场景图并人工补全缺失元素。通过迭代式文本增强策略——包括基于上下文的句子复述和语义融合——最终形成包含120个动态场景、2,041条描述和4,289个场景图的结构化语料库。针对理解与生成两类任务，分别采用人工引导的LLM提问生成和干扰项构造方法，确保评估体系的严谨性。

特点

该数据集创新性地建立了文本叙述与动态场景图的双向映射体系，其核心特征体现在三方面：时空动态性方面，通过平均3.64个连续场景图的序列化表征，捕捉真实场景中的时序交互；结构复杂性方面，每个场景图平均包含4.81个节点和3.45条边，涵盖18个领域的多样化谓词关系；评估系统性方面，独创性地将场景图处理能力解构为理解（SGQA/SGDS）与生成（SA-SGG/MA-SGG）两大维度，特别设计了隐含动作分解和重复动作建模等挑战性任务。

使用方法

使用TSG Bench需遵循三层评估框架：在理解任务中，模型需根据场景图序列回答多跳问题（SGQA）或选择正确描述（SGDS）；生成任务要求将文本转化为结构化场景图，其中单动作生成（SA-SGG）检验基础构图能力，多动作生成（MA-SGG）评估复杂叙述的分解与表征能力。评估时需严格遵循预设的节点类型（person/action/object/hand）和边关系（verb/dobj/preposition）体系，并采用精确匹配（EM）和F1值等指标。为提升效果，建议结合思维链提示（CoT）和少样本学习策略，特别是在处理需要时序推理的多动作生成场景时。

背景与挑战

背景概述

Text-Scene Graph Bench (TSG Bench)是由Yonsei University和KAIST的研究团队于2025年提出的创新性基准数据集，旨在系统评估大语言模型（LLMs）在场景图理解与生成方面的能力。场景图作为结构化表示方法，能够编码场景中的实体、属性及其关系，在计算机视觉、机器人学和多模态环境理解等领域具有重要应用价值。该数据集包含120个真实场景、2,041条文本描述和4,289个场景图，覆盖18个领域，通过人类与LLM协作的标注流程构建，为研究LLMs的空间推理和结构化表示能力提供了标准化测试平台。

当前挑战

TSG Bench面临的核心挑战体现在两个方面：在领域问题层面，现有LLMs虽能较好完成场景图理解任务，但在生成复杂叙事对应的场景图时表现显著下降，特别是对隐含动作分解和重复动作建模存在瓶颈；在构建技术层面，数据集创建需解决动态场景的时序关系标注、多动作场景的图结构分解，以及文本描述与图元素的精确对齐等难题。此外，基准测试揭示了LLMs在节点生成精度（平均F1=54.42）、边关系推理（平均F1=58.15）和多动作分解（平均F1=35.13）等子任务上的性能局限，这些发现为提升LLMs的结构化推理能力指明了关键研究方向。

常用场景

经典使用场景

TSG Bench数据集在评估大型语言模型（LLM）理解和生成场景图的能力方面具有经典应用。该数据集通过提供文本叙述和对应的场景图，系统性地测试LLM在场景图理解和生成任务中的表现。例如，在场景图理解任务中，模型需要根据给定的场景图回答相关问题或选择正确的文本描述；在生成任务中，模型需将复杂文本叙述分解为结构化的场景图。这些任务广泛应用于自然语言处理、计算机视觉和机器人技术等领域。

实际应用

TSG Bench的实际应用场景包括机器人导航、智能家居控制和虚拟环境建模。例如，在机器人导航中，LLM可以利用场景图理解环境中的对象关系，生成合理的行动路径；在智能家居中，场景图生成能力可用于解析用户指令并转化为具体的设备操作。此外，该数据集还可用于开发更高效的视觉问答系统和自动化内容生成工具。

衍生相关工作

TSG Bench的推出催生了一系列相关研究，包括改进LLM的场景图生成方法、结合视觉语言模型（VLM）的多模态评估框架，以及针对动态场景的扩展数据集。例如，部分研究利用TSG Bench的评估结果，开发了基于链式思维（CoT）提示和上下文学习（ICL）的优化方法，显著提升了LLM在复杂场景中的表现。此外，该数据集还启发了对场景图中隐含动作和时空关系的新探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集