SEAM: Semantically Equivalent Across Modalities Benchmark

github2025-08-28 更新2025-08-29 收录

下载链接：

https://github.com/CSSLab/SEAM

下载链接

链接失效反馈

官方服务：

资源简介：

SEAM是一个基准测试数据集，用于评估视觉-语言模型在跨模态表示中的一致性推理能力。该数据集包含3,200个基础问题，涵盖国际象棋、化学、音乐和图论四个领域，总共提供9,600次评估，支持三种模态：纯语言、纯视觉和视觉-语言。通过采用跨模态的不同符号系统，SEAM提供了对VLMs文本符号和视觉空间推理能力的严格比较评估

SEAM is a benchmark dataset developed to evaluate the consistent reasoning capabilities of vision-language models (VLMs) in cross-modal representations. The dataset includes 3,200 foundational questions covering four domains: chess, chemistry, music, and graph theory, with a total of 9,600 evaluation trials. It supports three modalities: purely linguistic, purely visual, and visual-linguistic. By leveraging distinct symbolic systems across modalities, SEAM enables a rigorous comparative assessment of VLMs’ textual symbolic and visual-spatial reasoning abilities.

创建时间：

2025-08-16

原始信息汇总

SEAM 数据集概述

数据集基本信息

数据集名称：SEAM（Semantically Equivalent Across Modalities Benchmark for Vision-Language Models）

核心目标：评估视觉-语言模型（VLMs）在不同模态表示间的一致性推理能力

数据集规模：

基础问题数量：3,200个
覆盖领域：4个（国际象棋、化学、音乐、图论）
总评估次数：9,600次（跨3种模态）

模态支持

纯语言模态（Language-only）
纯视觉模态（Vision-only）
视觉-语言多模态（Vision-Language）

技术特点

语义等价性：通过使用不同符号系统（文本符号与视觉空间表示）来配对语义等价的输入，避免基于OCR的图像-文本配对方法

评估流程：统一的三阶段流水线

推理（Inference）
提取（Extraction）
指标计算（Metrics）

模型支持

支持的模型提供商：

vLLM（本地模型）
OpenAI API
Claude API

已验证模型：16个当代视觉-语言模型

主要发现

系统性模态不平衡：

视觉模态性能普遍落后于语言模态
跨模态一致性相对较低

错误分析主要驱动因素：

文本感知失败：领域符号标记化问题
视觉感知失败：导致幻觉产生

数据获取

主要来源：HuggingFace数据集（https://huggingface.co/datasets/lilvjosephtang/SEAM-Benchmark）

备用来源：本地JSONL文件（自动回退机制）

相关资源

论文：https://arxiv.org/abs/2508.18179

讨论论坛：https://openreview.net/forum?id=lI4LgGv4sX

排行榜网站：https://lilv98.github.io/SEAM-Website/

搜集汇总

数据集介绍

构建方式

在跨模态推理评估领域，SEAM数据集通过精心设计四类专业领域（国际象棋、化学、音乐与图论）的语义等价问题构建而成。该数据集采用标准化文本符号系统与视觉空间表示法并行生成每个问题，确保不同模态间信息内容完全一致。构建过程中严格避免了OCR式图文配对方法，转而利用领域特有的符号体系生成视觉表示，从而消除任务差异与信息不对称对评估结果的干扰。数据集包含3200个基础问题，通过三重模态呈现形成9600次评估样本，为模型跨模态一致性研究提供坚实基础。

特点

SEAM数据集的核心特征在于其严格的语义等价性与多模态并行架构。该数据集创新性地采用专业领域符号系统构建视觉表示，与文本模态形成精确对应关系，有效解决了传统评估中模态间信息不对等的根本问题。数据集涵盖四大专业领域，每个领域均包含语言单独、视觉单独及视觉语言联合三种模态表现形式。这种设计使得研究者能够精确测量模型在不同模态下的推理一致性，特别有助于识别文本符号感知与视觉空间感知之间的能力差异。数据集还配备了统一的三阶段评估流程，支持主流大语言模型与多模态模型的标准化测试。

使用方法

使用SEAM数据集需遵循标准化评估流程，首先通过HuggingFace平台自动下载数据集或手动加载本地版本。评估过程采用模块化三阶段管道：推理阶段支持vLLM本地模型、OpenAI及Claude等多种推理后端，可通过命令行参数指定模型类型与测试模态；答案提取阶段自动解析模型原始输出并抽取结构化答案；指标计算阶段生成准确性、一致性等多维评估指标。研究者可通过配置API密钥、选择特定任务子集、调整GPU并行度等高级选项定制评估流程，所有结果均以标准化JSON格式输出便于后续分析。

背景与挑战

背景概述

SEAM基准数据集由多伦多大学和斯坦福大学的研究团队于2025年创建，旨在解决视觉-语言模型在多模态推理中的一致性评估难题。该数据集涵盖国际象棋、化学、音乐和图论四个专业领域，通过构建语义等价但模态表达不同的输入对，为模型跨模态推理能力提供标准化评估框架。其创新性在于突破了传统OCR-based图像-文本配对模式的局限，采用独立符号系统实现真正意义上的模态间语义等价，为多模态人工智能的发展提供了重要的评估基准。

当前挑战

该数据集核心挑战在于解决视觉-语言模型在跨模态语义等价推理中的系统性偏差问题，具体表现为视觉模态性能显著滞后于语言模态，且跨模态一致性较低。构建过程中的技术挑战包括专业领域符号系统的多模态对齐、语义等价性验证，以及避免信息不对称对评估结果的影响。数据集还需克服不同模态输入在tokenization处理中的差异性，确保评估结果的可靠性与可比性。

常用场景

经典使用场景

在多模态人工智能研究领域，SEAM基准测试通过构建跨四个专业领域（国际象棋、化学、音乐和图论）的语义等价输入对，为视觉-语言模型提供了严格的跨模态一致性评估框架。该数据集采用标准化的文本符号与视觉表示系统，有效避免了传统OCR方法中任务差异和信息不对称的干扰，使得研究者能够系统性地比较模型在文本符号推理与视觉空间推理方面的能力差异。

衍生相关工作

SEAM基准测试的推出催生了一系列关于多模态对齐机制的创新研究。基于其发现的模态不平衡现象，研究者开发了新型的跨模态注意力机制和符号感知增强技术。该数据集还促进了视觉-语言模型在专业领域适应性方面的研究进展，特别是在符号密集领域的应用拓展，为构建真正意义上的模态无关推理系统奠定了实证基础。

数据集最近研究