SymbolBench

github2026-04-08 更新2026-04-09 收录

下载链接：

https://github.com/THUKElab/SymbolBench

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的多模态基准测试，旨在评估多模态大型语言模型在五个领域（语言、文化、数学、物理和化学）中识别、解析和推理离散视觉符号的能力。

A comprehensive multimodal benchmark designed to evaluate multimodal large language models on their ability to recognize, parse, and reason over discrete visual symbols across five domains: linguistics, culture, mathematics, physics, and chemistry.

创建时间：

2026-04-08

原始信息汇总

SymbolBench 数据集概述

数据集简介

SymbolBench 是一个全面的多模态基准测试，旨在评估多模态大语言模型在五个领域（语言、文化、数学、物理、化学）中识别、解析和推理离散视觉符号的能力。

核心领域与任务

数据集涵盖五个核心领域，每个领域包含不同难度级别（Level 1–3）和多种任务类型。

语言领域

任务1：不可识别字符检测（用 X 标记）。
任务2：错写字符检测（以 JSON 格式输出差异列表）。
任务3：句子纠错（输出修正后的完整句子）。

化学领域

任务：从分子结构图像中识别原子及其数量。

物理领域

任务：基于图表的多选物理问题（源自 MMMU）。

数学领域

任务：符号数学推理（答案格式为 oxed{}）。

文化领域

任务：从表情符号图像推断中/英文成语或词语。

评估指标

各领域采用的主要评估指标如下：

语言：字符级 F1、词对 F1、精确匹配/编辑距离。
化学：精确匹配 / LLM-Judge。
物理：准确率。
数学：精确匹配 / LLM-Judge。
文化：LLM-Judge / 准确率。

数据与文件结构

数据集文件托管于 Hugging Face：https://huggingface.co/datasets/Eternity-gaga/SymbolBench。本代码仓库主要包含评估脚本和资源文件，结构如下：

evaluation/：包含各领域（语言、STEM、表情符号）的推理和评估脚本。
data/：指向 Hugging Face 数据集的目录。
figures/：包含概述、任务介绍、数据案例、性能和分析结果的可视化资源。

评估流程

评估流程分为两个阶段：

推理阶段：使用闭源模型（如 GPT、Gemini）或开源模型（通过 vLLM）对数据集进行预测，生成 predictions.jsonl 文件。
评估阶段：
- 基于规则的指标：执行精确匹配、F1 分数等计算。
- LLM-as-Judge：使用大语言模型作为评判者进行评分。
- 最终生成 score.jsonl 和汇总统计的 metrics.json 文件。

快速开始

环境设置：克隆仓库并使用 conda (environment.yml) 或 pip (requirements.txt) 安装依赖。
准备API密钥：设置环境变量 OPENAI_API_KEY 等以使用相关 API。
运行推理：针对不同领域，运行对应的推理脚本（如 infer.py, baseline_test.py）。
运行评估：针对不同领域和评估方式，运行对应的评估脚本（如 evaluate_metric.py, evaluate_llm.py）。

输出格式

predictions.jsonl：包含模型原始预测结果。
score.jsonl：扩展了 LLM-as-Judge 的评分结果。
metrics.json：包含总体准确率、按难度级别和任务类型划分的聚合统计数据。

引用

如果使用本数据集，请引用： bibtex @article{li2026cognitive, title={Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding}, author={Li, Yinghui and Kuang, Jiayi and Xing, Peng and Liu, Daixian and Dong, Junnan and Guo, Shu-Yu and Li, Yangning and Zhou, Qingyu and Jiang, Wenhao and Zheng, Hai-Tao and others}, journal={arXiv preprint arXiv:2603.18472}, year={2026} }

许可证

本项目基于 MIT 许可证发布。

搜集汇总

数据集介绍

构建方式

在评估多模态大语言模型对离散视觉符号理解能力的背景下，SymbolBench的构建采用了系统化的设计思路。该数据集覆盖语言、文化、数学、物理和化学五大领域，每个领域内进一步细分为多种任务类型，并设置了从易到难的三级难度层次。数据收集过程整合了公开资源与人工标注，例如物理部分源自MMMU数据集，而语言与文化任务则通过精心设计的符号扰动与视觉表征生成。每个样本均包含图像输入与对应的文本问题或指令，确保了任务形式的多样性与评估维度的全面性。

特点

SymbolBench的突出特点在于其专注于离散视觉符号这一核心挑战，系统揭示了模型在符号识别、解析与推理过程中存在的认知失配现象。数据集不仅涵盖字符、公式、分子结构、图表乃至表情符号等多种符号形态，还通过分级难度设计细致刻画了模型的能力边界。评估框架兼具规则度量与基于大语言模型的评判机制，支持对闭源API模型与本地开源模型进行统一评测。丰富的可视化案例与结构化输出进一步增强了数据集的可用性与可解释性。

使用方法

使用SymbolBench进行模型评估遵循清晰的流程。研究人员首先配置Python环境并准备相应的API密钥，随后利用提供的脚本对不同领域的任务进行推理。数据集支持通过OpenAI兼容API调用闭源模型，也可借助vLLM框架在本地部署开源模型进行预测。预测结果以JSONL格式保存，进而通过规则匹配或大语言模型作为评判官的方式进行自动评分。最终生成的度量文件汇总了整体准确率以及按难度与任务类型细分的性能指标，便于深入分析模型在不同符号理解场景下的表现。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态大语言模型对离散视觉符号的理解能力成为衡量其认知水平的关键维度。SymbolBench数据集应运而生，由清华大学等机构的研究团队于2026年创建，旨在系统评估模型在语言、文化、数学、物理及化学五大领域内对离散符号的识别、解析与推理能力。该数据集通过构建多层次难度的任务，揭示了当前模型在处理诸如生僻字符、分子结构图、数学公式等符号时所存在的认知错配现象，为深入理解多模态模型的符号处理机制提供了重要的基准工具，推动了相关领域向更精细、更鲁棒的符号理解方向发展。

当前挑战

SymbolBench致力于解决多模态大语言模型在离散视觉符号理解这一核心问题上的评估挑战，其首要难点在于如何设计能够全面覆盖不同符号特性与认知难度的任务体系。数据构建过程面临双重考验：一方面，需要从语言、文化到科学符号等多个异构领域收集和标注高质量、多样化的视觉符号数据，确保其真实性与代表性；另一方面，必须设计精确且可解释的评估指标，以区分模型是真正理解了符号语义，还是仅依赖表面模式匹配。这些挑战共同指向了当前人工智能在抽象符号认知方面存在的根本性局限。

常用场景

经典使用场景

在人工智能与多模态学习领域，SymbolBench作为一个综合性基准测试集，其经典使用场景聚焦于评估多模态大语言模型对离散视觉符号的识别、解析与推理能力。该数据集覆盖语言、文化、数学、物理和化学五大领域，通过多层级难度与多样化任务类型，系统检验模型在复杂符号理解任务中的表现。研究者通常利用SymbolBench进行模型能力诊断与对比分析，揭示现有模型在符号认知方面存在的局限与偏差，从而推动多模态智能向更精细的符号理解方向发展。

衍生相关工作

围绕SymbolBench衍生的经典工作主要集中于多模态模型的评估方法论改进与能力增强研究。一方面，该数据集启发了对LLM-as-Judge评估范式的深入探索，促进了自动化、可解释的模型性能评判体系的发展。另一方面，其揭示的认知失配现象催生了针对符号感知的模型微调、视觉编码器优化以及跨领域知识融合等一系列技术创新。这些工作不仅拓展了多模态基准测试的范畴，也为构建更具符号意识的下一代人工智能系统提供了关键的技术路线与理论支撑。

数据集最近研究