five

SFE|科学认知评估数据集|多模态语言模型数据集

收藏
huggingface2025-06-23 更新2025-06-24 收录
科学认知评估
多模态语言模型
下载链接:
https://huggingface.co/datasets/PrismaX/SFE
下载链接
链接失效反馈
资源简介:
SFE(科学家首次考试)数据集是为了评估大型多模态语言模型(MLLMs)的科学认知能力而设计的。它通过三个认知层次:科学信号感知、科学属性理解和科学比较推理,来全面评估MLLMs在科学领域的认知能力。该数据集包含830个经过专家验证的视觉问答对,这些问答对来源于五个高价值学科领域的66个多模态任务,包括天文学、化学、地球科学、生命科学和材料科学。
创建时间:
2025-06-11
原始信息汇总

SFE数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 视觉问答 (Visual Question Answering)
  • 支持语言: 英语 (en)、中文 (zh)
  • 标签: 化学、生物学、基准测试、科学、地球、材料、生命、天文学
  • 数据集名称: SFE (Scientists First Exam)
  • 数据规模: <1K

数据集简介

SFE (Scientists First Exam) 是一个用于评估多模态大语言模型 (MLLMs) 科学认知能力的基准测试,通过三个认知层次进行测评:

  1. 科学信号感知: 识别科学原始数据可视化中的关键组成部分。
  2. 科学属性理解: 解释领域专家知识的能力。
  3. 科学比较推理: 通过结构化比较多个科学视觉源得出现象学见解的能力。

数据集内容

  • 学科范围: 天文学、化学、地球科学、生命科学、材料科学
  • 任务数量: 66个专家策划的高价值多模态任务
  • 问题类型: 830个专家验证的视觉问答 (VQA) 对
  • 语言支持: 双语 (英语和中文)

数据集下载

bash git lfs install git clone https://huggingface.co/datasets/PrismaX/SFE # 克隆所有文件,包括原始数据 GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/PrismaX/SFE # 仅克隆文件指针,不包括大文件

评估方法

使用 lmms-eval 进行评估。

参考文献

bibtex @misc{zhou2025scientistsexamprobingcognitive, title={Scientists First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning}, author={Yuhao Zhou and Yiheng Wang and Xuming He and Ruoyao Xiao and Zhiwei Li and Qiantai Feng and Zijie Guo and Yuejin Yang and Hao Wu and Wenxuan Huang and Jiaqi Wei and Dan Si and Xiuqi Yao and Jia Bu and Haiwen Huang and Tianfan Fu and Shixiang Tang and Ben Fei and Dongzhan Zhou and Fenghua Ling and Yan Lu and Siqi Sun and Chenhui Li and Guanjie Zheng and Jiancheng Lv and Wenlong Zhang and Lei Bai}, year={2025}, eprint={2506.10521}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.10521}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在科学认知评估领域,SFE数据集的构建采用了专家验证的多模态任务设计方法。该数据集由830个经过领域专家严格审核的视觉问答对组成,覆盖天文学、化学、地球科学、生命科学和材料科学五大高价值学科领域。构建过程中,研究者基于原生科学原始数据格式,精心设计了66个多模态任务,每个任务均以双语(英语和中文)形式呈现,旨在系统评估多模态大语言模型在科学信号感知、属性理解和比较推理三个认知层次的表现。
特点
SFE数据集展现出鲜明的学科交叉特色和认知深度。其核心特征体现在三个方面:采用真实的科学原始数据可视化形式,确保评估场景的学术严谨性;设计具有领域专家知识深度的评估任务,涵盖从基础感知到复杂推理的完整认知链条;构建双语评估体系,为跨语言科学认知研究提供基准。特别值得注意的是,该数据集包含的66个多模态任务均经过精心设计,既考察模型对专业知识的理解能力,又评估其科学数据分析技能。
使用方法
使用SFE数据集进行科学认知能力评估时,研究者可通过Git LFS工具完整克隆包含原始数据的数据集,或选择仅获取文件指针的轻量级克隆方式。评估过程推荐使用lmms-eval框架,该框架针对多模态大语言模型的科学认知能力评估进行了专门优化。数据集提供的视觉问答对可直接用于模型性能测试,其中包含的科学可视化数据和专业领域问题能够全面检验模型在感知、理解和推理三个认知层面的表现。所有任务的双语特性也为跨语言科学认知研究提供了便利条件。
背景与挑战
背景概述
科学家首次考试(SFE)数据集由PrismaX团队于2025年推出,旨在全面评估多模态大语言模型(MLLMs)在科学认知能力方面的表现。该数据集聚焦于天文学、化学、地球科学、生命科学和材料科学等五个高价值学科,包含830个经过专家验证的视觉问答对,覆盖66项多模态任务。SFE通过科学信号感知、科学属性理解和科学比较推理三个认知层次,系统地考察模型在科学领域的多模态理解与推理能力。该数据集的建立填补了当前科学基准测试在感知与推理能力评估上的空白,为AI驱动的科学发现提供了重要的评估工具。
当前挑战
SFE数据集面临的挑战主要体现在两个方面:领域问题的复杂性和数据构建的专业性。在领域问题方面,科学数据的多模态特性与学科交叉性要求模型具备跨领域的知识融合能力,而当前最先进的GPT-o3和InternVL-3模型在SFE上的表现仅为34.08%和26.52%,揭示出现有模型在科学信号解析和因果推理上的显著不足。在数据构建过程中,需克服科学原始数据格式异构性、专家知识标注一致性以及双语任务对等的挑战,这要求团队在数据采集、问题设计和验证流程中保持严格的学科规范与多语言等效性。
常用场景
经典使用场景
在科学认知能力评估领域,SFE数据集通过多模态视觉问答(VQA)形式,系统性地考察多模态大语言模型(MLLMs)在科学信号感知、属性理解和比较推理三个认知层级的表现。该数据集覆盖天文学、化学、地球科学等五个高价值学科,其830个专家验证的问答对常被用于构建细粒度评估框架,成为衡量模型科学认知能力的黄金标准。研究者通过跨学科任务设计,能够精准定位模型在科学场景下的认知短板。
实际应用
该数据集在科研辅助工具开发中展现出重要价值。基于SFE训练的模型可协助科学家快速解析实验数据可视化结果,如从分子结构图中识别官能团特征,或对比不同天体光谱图推导物理规律。其双语特性支持跨语言科研协作,而专家级标注体系能有效提升自动化文献分析系统的推理深度,显著缩短从原始数据到科学发现的转化周期。
衍生相关工作
SFE的发布催生了多个重要研究方向。基于其构建的PrismAX评测体系已成为科学MLLMs的基准测试平台,相关论文提出的三级认知框架被扩展应用于材料发现、气候建模等领域。受其启发,后续研究相继开发了针对生物医学图像推理的BioSFE变体,以及融合实验协议理解的ChemBench姊妹数据集,共同推动了AI4Science评估范式的革新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国高考录取分数线数据

  高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。  CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。

CnOpenData 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录