SEAM

Name: SEAM
Creator: 多伦多大学计算机科学系和酷威人工智能实验室
Published: 2025-08-26 00:33:07
License: 暂无描述

arXiv2025-08-26 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/datasets/lilvjosephtang/SEAM-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

SEAM数据集是一个用于评估视觉语言模型（VLM）跨模态推理能力的基准，它通过在四个领域（国际象棋、化学、音乐和图论）中配对语义等价的输入来控制语义等效性。数据集包含了16个任务，每个任务200个项目，总共3200个条目。SEAM数据集旨在解决当前VLMs在视觉和语言性能之间存在的系统不平衡问题，通过比较不同模态下的推理能力，为更通用的多模态模型提供评估和改进的依据。该数据集的创建旨在推动视觉语言模型的发展，并促进跨模态推理能力的提升。

提供机构：

多伦多大学计算机科学系和酷威人工智能实验室

创建时间：

2025-08-26

搜集汇总

数据集介绍

构建方式

在跨模态推理评估领域，SEAM基准通过精心选择四个具有标准化双模态符号系统的领域——国际象棋（FEN符号与棋盘图像）、化学（SMILES字符串与分子结构图）、音乐（ABC记谱法与五线谱）以及图论（邻接矩阵与节点边图），构建了语义完全等价的跨模态数据对。该数据集采用工具链自动化生成流程：首先从专业数据库（如Lichess棋局库、ChemQA化学数据集）采集原始符号表示，通过领域专用工具（python-chess、RDKit等）转换为视觉表征，并基于确定性算法生成真实答案。针对3200个四选一题目，通过数值扰动、类别均匀采样及语义嵌入检索三种策略构造具有校准难度的干扰选项，确保任务既非平凡亦非随机猜测可解。

使用方法

研究者可通过三种模态输入模式使用SEAM基准：纯文本（领域符号表示）、纯视觉（标准化图像）以及图文融合模式。评估时需采用零样本思维链提示策略，通过标准化提示模板引导模型进行逐步推理，并强制要求以固定格式输出选项答案。答案提取阶段需借助外部语言模型（如Qwen2.5-7B-Instruct）从生成文本中解析最终选择，通过计算跨模态答案一致率与准确率两项指标，系统评估模型在语义等价条件下的模态对齐程度。该基准支持vLLM等推理框架实现批量评估，其模块化设计允许持续扩展新领域任务以适应不断演进的多模态模型能力。

背景与挑战

背景概述

SEAM（跨模态语义等价基准）由多伦多大学计算机科学系与Coolwei AI实验室的研究团队于2025年提出，旨在解决视觉语言模型在多模态推理中的核心挑战。该数据集通过整合国际象棋、化学、音乐与图论四个具有标准化符号系统的领域，构建了语义完全等价的文本符号与视觉空间表征。其创新性在于首次实现了跨模态输入的严格语义对齐，为评估模型在异构表示下的统一推理能力提供了理论框架，显著推动了多模态人工智能在符号逻辑与空间认知融合方向的发展。

当前挑战

SEAM基准面临双重挑战：在领域问题层面，需解决视觉语言模型在异构符号系统（如化学SMILES与分子图、棋谱FEN与棋盘布局）中表现出的系统性模态失衡，即视觉模态推理能力显著滞后于语言模态；在构建过程中，需克服跨模态语义等价性保障的技术难题，包括专业符号的标准化转换工具适配、视觉渲染与文本符号的语义无损映射，以及对抗模型因分词错误或视觉幻觉引发的模态特异性认知偏差。

常用场景

经典使用场景

在跨模态推理研究领域，SEAM数据集通过构建语义等效的视觉空间与文本符号表征对，为评估视觉语言模型的模态无关推理能力提供了标准化测试环境。该数据集涵盖国际象棋、化学、音乐和图论四大专业领域，每个领域均采用成熟的标准化符号系统（如FEN棋谱与棋盘图像、SMILES分子式与结构图、ABC乐谱与五线谱、邻接矩阵与节点边图），确保不同模态间信息内容的严格对等。研究者可利用该数据集系统分析模型在处理相同语义信息时，因输入模态差异导致的性能波动与认知偏差。

解决学术问题

SEAM数据集有效解决了跨模态评估中长期存在的语义不对等与任务混淆难题。通过构建严格控制的实验环境，该数据集首次实现了对21个前沿视觉语言模型模态失衡现象的系统性量化，揭示了文本模态普遍优于视觉模态的性能差距现象。其创新性设计为探究符号感知失效（如SMILES字符串分词错误）与视觉幻觉生成等核心问题提供了实验基础，推动了模态对齐理论、跨模态一致性建模等研究方向的发展，为构建真正具备统一推理能力的多模态模型奠定了方法论基础。

实际应用

该数据集在专业领域智能化转型中具有显著应用价值。国际象棋对弈平台可借助其评估系统对棋局分析与走棋推荐模块进行模态鲁棒性测试；药物研发领域能通过化学结构理解任务优化分子属性预测系统的多模态交互；数字音乐平台可基于乐谱识别任务提升自动编曲系统的符号转换精度；图数据分析工具则能利用路径计算等任务强化可视化界面与矩阵运算的协同推理。这些应用场景直接对应现实世界中专家在视觉与文本表征间自由切换的专业工作模式。

数据集最近研究