SFE|科学认知评估数据集|多模态语言模型数据集
收藏SFE数据集概述
基本信息
- 许可证: MIT
- 任务类别: 视觉问答 (Visual Question Answering)
- 支持语言: 英语 (en)、中文 (zh)
- 标签: 化学、生物学、基准测试、科学、地球、材料、生命、天文学
- 数据集名称: SFE (Scientists First Exam)
- 数据规模: <1K
数据集简介
SFE (Scientists First Exam) 是一个用于评估多模态大语言模型 (MLLMs) 科学认知能力的基准测试,通过三个认知层次进行测评:
- 科学信号感知: 识别科学原始数据可视化中的关键组成部分。
- 科学属性理解: 解释领域专家知识的能力。
- 科学比较推理: 通过结构化比较多个科学视觉源得出现象学见解的能力。
数据集内容
- 学科范围: 天文学、化学、地球科学、生命科学、材料科学
- 任务数量: 66个专家策划的高价值多模态任务
- 问题类型: 830个专家验证的视觉问答 (VQA) 对
- 语言支持: 双语 (英语和中文)
数据集下载
bash git lfs install git clone https://huggingface.co/datasets/PrismaX/SFE # 克隆所有文件,包括原始数据 GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/PrismaX/SFE # 仅克隆文件指针,不包括大文件
评估方法
使用 lmms-eval 进行评估。
参考文献
bibtex @misc{zhou2025scientistsexamprobingcognitive, title={Scientists First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning}, author={Yuhao Zhou and Yiheng Wang and Xuming He and Ruoyao Xiao and Zhiwei Li and Qiantai Feng and Zijie Guo and Yuejin Yang and Hao Wu and Wenxuan Huang and Jiaqi Wei and Dan Si and Xiuqi Yao and Jia Bu and Haiwen Huang and Tianfan Fu and Shixiang Tang and Ben Fei and Dongzhan Zhou and Fenghua Ling and Yan Lu and Siqi Sun and Chenhui Li and Guanjie Zheng and Jiancheng Lv and Wenlong Zhang and Lei Bai}, year={2025}, eprint={2506.10521}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.10521}, }

中国高考录取分数线数据
高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。 CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。
CnOpenData 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录