SUPERChem

github2025-12-11 更新2025-12-12 收录

下载链接：

https://github.com/catalystforyou/SUPERChem_eval

下载链接

链接失效反馈

官方服务：

资源简介：

SUPERChem是一个专家策划的、推理密集型的多模态化学基准数据集，用于严格评估大型语言模型（LLMs）和多模态LLMs（MLLMs）的深度化学推理能力。该数据集包含500个专家策划的推理密集型化学问题，涵盖多个子领域，并提供多模态和纯文本格式。每个问题都配有专家撰写的解决方案路径，支持推理路径保真度（RPF）评分，以评估推理质量。

SUPERChem is an expert-curated, reasoning-intensive multimodal chemical benchmark dataset designed for rigorous evaluation of the deep chemical reasoning capabilities of large language models (LLMs) and multimodal large language models (MLLMs). The dataset contains 500 expert-curated reasoning-intensive chemistry questions spanning multiple subfields, and is available in both multimodal and plain text formats. Each question is accompanied by expert-written solution pathways, enabling Reasoning Path Fidelity (RPF) scoring to assess the quality of reasoning.

创建时间：

2025-11-16

原始信息汇总

SUPERChem 数据集概述

数据集基本信息

数据集名称: SUPERChem: A Multimodal Reasoning Benchmark in Chemistry
核心目标: 为大型语言模型（LLMs）和多模态大语言模型（MLLMs）提供一个专家级、推理密集型的化学推理能力评估基准。
数据规模: 包含 500 个专家精心策划的推理密集型化学问题。
数据格式: 提供多模态（包含图像）和纯文本两种格式。
官方地址: https://huggingface.co/datasets/ZehuaZhao/SUPERChem
相关论文: https://arxiv.org/abs/2512.01274

核心特性

专家级挑战: 由领域专家策划，旨在测试深度化学推理能力，并缓解其他基准测试中出现的“天花板效应”。
过程级评估: 引入了推理路径保真度（RPF） 指标，用于评估模型的推理过程与专家撰写的解决方案路径的吻合程度，以区分真实理解与“侥幸猜对”。
受控多模态: 每个问题均提供多模态和纯文本两种格式，支持对模型整合视觉信息能力的严谨、受控分析。
细粒度能力分类: 系统化的化学知识与推理技能分类，支持对模型在不同子领域优势和劣势的详细诊断。
抗污染性: 问题均为新创作或改编自非公开来源，并经过严格的人工参与策划流程，以确保质量并降低网络抓取训练集导致的数据泄露风险。

评估框架与数据内容

评估框架仓库: https://github.com/catalystforyou/SUPERChem_eval
人类基线数据: 包含人类表现基线（data/20251015_baseline.csv），准确率为 40.3%。
能力标签定义: 提供所有能力标签的定义文件（data/ability_tags_description.json）。
数据集划分: 提供基于难度的预定义数据集划分（data/dataset_split_map.json）。
评估结果: 最佳表现模型 GPT-5 (High) 的准确率为 38.5%，略低于人类基线。

评估工作流程

配置评估: 修改 eval/ 目录中的脚本，指定待测试模型、输入文件等参数。
运行评估: 执行 eval/ 目录中的脚本以生成模型答案并进行思维链（CoT）评估，原始和评估后的 .jsonl 文件将保存在 data/ 目录。
分析结果: 使用 analysis/ 目录中的 Python 脚本处理 data/ 目录中的数据，例如计算准确率表或可视化模型能力。
查看输出: 分析脚本生成的图表和图形将保存在 results/ 目录。

搜集汇总

数据集介绍

构建方式

在化学推理评估领域，现有基准常因任务简化、天花板效应及过程评估缺失而受限。SUPERChem的构建采用专家主导的迭代式筛选流程，通过领域专家精心编制500道推理密集型化学问题，涵盖多个子领域，并以多模态与纯文本双格式呈现。其内容多为原创或源自非公开资料，结合人工循环审核机制，有效消除瑕疵条目并显著降低数据污染风险，确保了问题质量与评估的严谨性。

特点

SUPERChem的核心特点在于其专家级挑战性与过程级评估体系。该数据集通过高难度、多模态受控的设计，深入检验模型对化学知识的深层推理能力，并引入推理路径保真度（RPF）指标，将模型推理过程与专家撰写的解题路径进行比对，从而区分真实理解与偶然猜测。此外，精细化的能力分类体系支持对模型在不同化学子领域优势与弱点的系统诊断，增强了评估的维度与深度。

使用方法

使用SUPERChem进行评估时，需遵循其提供的标准化工作流程。首先配置评估脚本，指定待测模型与输入参数；随后运行评估生成模型答案，并进行思维链（CoT）评估以获取RPF分数；原始数据与评估结果将存储于指定目录。用户可借助分析脚本对结果进行后处理，生成准确率表格、雷达图等多种可视化分析，从而全面诊断模型在化学推理中的表现与局限。

背景与挑战

背景概述

在人工智能与化学科学交叉领域，评估大型语言模型（LLMs）与多模态大模型（MLLMs）的深度化学推理能力，一直是推动科学智能发展的核心议题。SUPERChem数据集由北京大学等机构的研究团队于2025年创建，旨在应对现有化学推理评测基准中存在的任务简化、天花板效应及过程评估缺失等局限。该数据集聚焦于专家级化学问题的复杂推理，通过精心设计的500道多模态与纯文本问题，结合原创内容与迭代式人工校验流程，显著提升了评测的严谨性与抗数据污染能力。其引入的推理路径保真度（RPF）指标，为模型推理质量的细粒度评估提供了新范式，对化学人工智能向专家级科学探究迈进具有重要影响力。

当前挑战

SUPERChem致力于解决化学领域内复杂推理任务的评估挑战，其核心在于如何准确衡量模型对专家级化学知识的深度理解与多步推理能力，而非仅依赖最终答案的准确性。构建过程中，研究团队面临多重挑战：一是确保问题的原创性与高质量，需通过领域专家参与的人工循环校验流程，以消除有缺陷的题目并降低网络爬取训练集导致的数据泄露风险；二是设计可控的多模态格式，要求每个问题同时具备图像与文本版本，以实现模型视觉信息整合能力的严格分析；三是建立细粒度的能力分类体系，以系统化地诊断模型在不同化学子领域中的优势与弱点，这需要深厚的学科知识支撑与精密的评测框架设计。

常用场景

经典使用场景

在化学人工智能领域，SUPERChem数据集常被用于评估大型语言模型和多模态大模型在复杂化学推理任务中的表现。该数据集通过500个专家精心设计的推理密集型问题，覆盖了有机化学、物理化学、分析化学等多个子领域，并以多模态和纯文本两种格式呈现。研究者利用这一基准测试模型的深层化学知识整合能力，特别是在处理涉及分子结构图像、反应机理和实验数据分析的综合问题时，能够系统检验模型是否具备接近专家水平的科学探究素养。

衍生相关工作

围绕SUPERChem数据集，已衍生出一系列聚焦化学人工智能评估方法创新的经典研究工作。这些工作主要集中于扩展多模态化学推理的评估维度，例如开发更细粒度的能力分类体系以进一步解构模型的化学技能，或设计基于强化学习的路径优化算法以提升推理路径保真度评分的效率。同时，部分研究尝试将该数据集的构建范式迁移至生物信息学、物理科学等领域，推动跨学科科学推理基准的建立。这些衍生工作共同促进了人工智能在复杂科学问题中推理能力的标准化评估与比较。

数据集最近研究