SFE

Hugging Face2025-06-23 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/PrismaX/SFE

下载链接

链接失效反馈

官方服务：

资源简介：

SFE（科学家首次考试）数据集是为了评估大型多模态语言模型（MLLMs）的科学认知能力而设计的。它通过三个认知层次：科学信号感知、科学属性理解和科学比较推理，来全面评估MLLMs在科学领域的认知能力。该数据集包含830个经过专家验证的视觉问答对，这些问答对来源于五个高价值学科领域的66个多模态任务，包括天文学、化学、地球科学、生命科学和材料科学。

创建时间：

2025-06-11

原始信息汇总

SFE数据集概述

基本信息

许可证: MIT
任务类别: 视觉问答 (Visual Question Answering)
支持语言: 英语 (en)、中文 (zh)
标签: 化学、生物学、基准测试、科学、地球、材料、生命、天文学
数据集名称: SFE (Scientists First Exam)
数据规模: <1K

数据集简介

SFE (Scientists First Exam) 是一个用于评估多模态大语言模型 (MLLMs) 科学认知能力的基准测试，通过三个认知层次进行测评：

科学信号感知: 识别科学原始数据可视化中的关键组成部分。
科学属性理解: 解释领域专家知识的能力。
科学比较推理: 通过结构化比较多个科学视觉源得出现象学见解的能力。

数据集内容

学科范围: 天文学、化学、地球科学、生命科学、材料科学
任务数量: 66个专家策划的高价值多模态任务
问题类型: 830个专家验证的视觉问答 (VQA) 对
语言支持: 双语 (英语和中文)

数据集下载

bash git lfs install git clone https://huggingface.co/datasets/PrismaX/SFE # 克隆所有文件，包括原始数据 GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/PrismaX/SFE # 仅克隆文件指针，不包括大文件

评估方法

使用 lmms-eval 进行评估。

参考文献

bibtex @misc{zhou2025scientistsexamprobingcognitive, title={Scientists First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning}, author={Yuhao Zhou and Yiheng Wang and Xuming He and Ruoyao Xiao and Zhiwei Li and Qiantai Feng and Zijie Guo and Yuejin Yang and Hao Wu and Wenxuan Huang and Jiaqi Wei and Dan Si and Xiuqi Yao and Jia Bu and Haiwen Huang and Tianfan Fu and Shixiang Tang and Ben Fei and Dongzhan Zhou and Fenghua Ling and Yan Lu and Siqi Sun and Chenhui Li and Guanjie Zheng and Jiancheng Lv and Wenlong Zhang and Lei Bai}, year={2025}, eprint={2506.10521}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.10521}, }

搜集汇总

数据集介绍

构建方式

在科学认知评估领域，SFE数据集的构建采用了专家验证的多模态任务设计方法。该数据集由830个经过领域专家严格审核的视觉问答对组成，覆盖天文学、化学、地球科学、生命科学和材料科学五大高价值学科领域。构建过程中，研究者基于原生科学原始数据格式，精心设计了66个多模态任务，每个任务均以双语（英语和中文）形式呈现，旨在系统评估多模态大语言模型在科学信号感知、属性理解和比较推理三个认知层次的表现。

特点

SFE数据集展现出鲜明的学科交叉特色和认知深度。其核心特征体现在三个方面：采用真实的科学原始数据可视化形式，确保评估场景的学术严谨性；设计具有领域专家知识深度的评估任务，涵盖从基础感知到复杂推理的完整认知链条；构建双语评估体系，为跨语言科学认知研究提供基准。特别值得注意的是，该数据集包含的66个多模态任务均经过精心设计，既考察模型对专业知识的理解能力，又评估其科学数据分析技能。

使用方法

使用SFE数据集进行科学认知能力评估时，研究者可通过Git LFS工具完整克隆包含原始数据的数据集，或选择仅获取文件指针的轻量级克隆方式。评估过程推荐使用lmms-eval框架，该框架针对多模态大语言模型的科学认知能力评估进行了专门优化。数据集提供的视觉问答对可直接用于模型性能测试，其中包含的科学可视化数据和专业领域问题能够全面检验模型在感知、理解和推理三个认知层面的表现。所有任务的双语特性也为跨语言科学认知研究提供了便利条件。

背景与挑战

背景概述

科学家首次考试（SFE）数据集由PrismaX团队于2025年推出，旨在全面评估多模态大语言模型（MLLMs）在科学认知能力方面的表现。该数据集聚焦于天文学、化学、地球科学、生命科学和材料科学等五个高价值学科，包含830个经过专家验证的视觉问答对，覆盖66项多模态任务。SFE通过科学信号感知、科学属性理解和科学比较推理三个认知层次，系统地考察模型在科学领域的多模态理解与推理能力。该数据集的建立填补了当前科学基准测试在感知与推理能力评估上的空白，为AI驱动的科学发现提供了重要的评估工具。

当前挑战

SFE数据集面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的专业性。在领域问题方面，科学数据的多模态特性与学科交叉性要求模型具备跨领域的知识融合能力，而当前最先进的GPT-o3和InternVL-3模型在SFE上的表现仅为34.08%和26.52%，揭示出现有模型在科学信号解析和因果推理上的显著不足。在数据构建过程中，需克服科学原始数据格式异构性、专家知识标注一致性以及双语任务对等的挑战，这要求团队在数据采集、问题设计和验证流程中保持严格的学科规范与多语言等效性。

常用场景

经典使用场景

在科学认知能力评估领域，SFE数据集通过多模态视觉问答（VQA）形式，系统性地考察多模态大语言模型（MLLMs）在科学信号感知、属性理解和比较推理三个认知层级的表现。该数据集覆盖天文学、化学、地球科学等五个高价值学科，其830个专家验证的问答对常被用于构建细粒度评估框架，成为衡量模型科学认知能力的黄金标准。研究者通过跨学科任务设计，能够精准定位模型在科学场景下的认知短板。

实际应用

该数据集在科研辅助工具开发中展现出重要价值。基于SFE训练的模型可协助科学家快速解析实验数据可视化结果，如从分子结构图中识别官能团特征，或对比不同天体光谱图推导物理规律。其双语特性支持跨语言科研协作，而专家级标注体系能有效提升自动化文献分析系统的推理深度，显著缩短从原始数据到科学发现的转化周期。

衍生相关工作

SFE的发布催生了多个重要研究方向。基于其构建的PrismAX评测体系已成为科学MLLMs的基准测试平台，相关论文提出的三级认知框架被扩展应用于材料发现、气候建模等领域。受其启发，后续研究相继开发了针对生物医学图像推理的BioSFE变体，以及融合实验协议理解的ChemBench姊妹数据集，共同推动了AI4Science评估范式的革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集