SGI-Reasoning

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/PrismaX/SGI-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

SGI-Bench是一个针对科学通用智能（SGI）评估的基准数据集，涵盖了整个科学探究周期：沉思、构思、行动和感知。该数据集跨越10个学科，包含约1000个由专家策划的样本，这些样本受到《科学》杂志125个重大问题的启发。数据集通过一个以代理人为中心的评估框架和多指标协议进行评估。

创建时间：

2025-11-30

原始信息汇总

SGI-Reasoning 数据集概述

数据集基本信息

数据集名称: SGI-Reasoning
发布者: PrismaX
存储地址: https://huggingface.co/datasets/PrismaX/SGI-Reasoning
数据集规模: 下载大小 387,022,872 字节，数据集大小 420,495,056 字节
数据划分: 仅包含一个测试集（test），共 291 个样本

数据集结构与特征

数据集包含以下字段：

idx: 样本索引（字符串类型）
question: 问题文本（字符串类型）
images: 图像列表（图像类型）
options: 选项列表（字符串类型）
steps: 推理步骤列表（字符串类型）
step_images: 步骤图像列表（图像类型）
answer: 答案（整型）
image_type: 图像类型（字符串类型）
discipline: 学科领域（字符串类型）
direction: 方向（字符串类型）
type: 类型（字符串类型）

数据集背景与目的

该数据集是 SGI-Bench 基准测试的一部分，旨在评估科学通用智能。SGI 指能够像人类科学家一样，自主完成“深思熟虑、概念形成、行动执行、感知理解”这一完整、迭代的科学探究循环的 AI 系统。

任务范畴

数据集对应 SGI-Bench 框架中的“感知”阶段，专注于多模态实验推理，具体包括对过程、观察、模拟、实验、可视化等图像进行推理。

数据构建

原始语料: 涵盖 10 个学科领域，灵感来源于《科学》杂志的 125 个重大科学问题，由专家精心挑选文本和图像。
问题构建: 由 100 多名研究生/博士生标注者完成，并经过持续的专家参与式审查。
质量控制: 通过规则检查、模型检查和专家质量保证，确保任务的可执行性和答案的唯一性。
难度筛选: 移除了超过 50% 的强语言模型能够解决的样本，以保持高挑战性。

引用信息

@article{sgi2025, title={SGI-Bench: Scientific Intelligence Benchmark via Scientist-Aligned Workflows}, author={Research Team}, journal={arXiv preprint arXiv:2401.xxxxx}, year={2025} }

搜集汇总

数据集介绍

构建方式

在科学智能评估领域，SGI-Reasoning数据集的构建体现了严谨的专家驱动范式。其原始语料源自《科学》杂志125个重大科学问题所启发的跨学科文本与图像，覆盖十个核心学科领域。构建过程由逾百名研究生与博士级标注员执行，并辅以持续的专家在环审核机制，确保问题的科学严谨性与真实性。后续通过规则过滤、模型校验与专家质量评估等多重清洗流程，保障了任务的可行性与答案的唯一性。尤为关键的是，该数据集采用了难度过滤策略，剔除了当前主流大语言模型能够轻易破解的样本，从而维持了基准的高挑战性，最终形成了兼具高保真度与广泛代表性的科学家对齐任务集合。

特点

SGI-Reasoning数据集的核心特征在于其深度对齐科学探究的完整周期，即审议、构思、行动与感知四个阶段，这构成了科学通用智能的实践框架。数据集内容具有高度的多模态特性，不仅包含复杂的文本推理问题，还整合了过程图、观测图像、仿真结果等多种视觉信息，要求模型具备跨模态的理解与推理能力。其问题设计扎根于真实的科研情境，任务类型涵盖深度文献研究、结构化创意生成、干湿实验设计以及实验现象的多模态归因，从而全面评估智能体在开放式科学工作流中的综合能力。这种以科学家工作模式为蓝本的设计，使得该基准能够有效衡量模型在复杂、无固定答案的科学场景中的表现。

使用方法

该数据集主要服务于科学通用智能模型的评估与能力分析。使用者可通过其提供的标准化测试分割，对模型在跨学科、多模态科学推理任务上的性能进行系统化测评。评估框架支持智能体化评估，允许模型调用网络搜索、代码解释器、文档解析等工具池，模拟真实的科研辅助环境。评测过程遵循四阶段流程：从任务选择、指标定制到预测执行与报告生成，并提供了精确匹配、步骤级评估、实现相似度及多项选择准确率等多样化度量标准。研究人员可基于开源代码库复现评估流程，或根据需求引入如严谨性、可行性等科学家对齐的定制化指标，从而获得可追溯、可复现且具有实践指导意义的评估结果。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，科学推理能力被视为衡量系统认知深度的关键标尺。SGI-Reasoning数据集于2025年由PrismaX团队构建，其核心研究问题聚焦于评估人工智能系统在完整科学探究循环——即审议、构思、行动与感知——中的综合推理能力。该数据集根植于《科学》杂志提出的125个重大科学问题，跨越十个学科领域，旨在通过近千个专家精心策划的多模态样本，为科学通用智能提供一个严谨且与科学家工作流对齐的评估基准。它的出现标志着人工智能评估从单一任务性能转向对复杂、迭代性科学思维过程的系统性考察，对推动AI在科学研究中的应用具有深远影响。

当前挑战

SGI-Reasoning数据集致力于解决科学通用智能评估这一前沿领域的核心挑战，即如何设计一个能够全面衡量AI系统像科学家一样进行跨学科、多步骤、具身性推理的基准。其构建过程面临多重困难：首先，在数据构造上，需要协调百余名研究生与博士作为标注者，并在专家持续参与下确保问题的科学性、可执行性与答案唯一性，这一过程耗费巨大且质量控制极为复杂。其次，在难度控制上，需通过模型筛选机制剔除那些能被当前强大语言模型轻易解决的样本，以维持基准的高挑战性，这对过滤策略的精准度提出了极高要求。最后，评估框架本身需整合工具使用、多阶段推理与定制化度量标准，以模拟真实的科研环境，其设计与实现均具有显著的复杂性。

常用场景

经典使用场景

在人工智能与科学交叉领域，SGI-Reasoning数据集为评估模型在科学探究全周期中的多模态推理能力提供了基准。其经典使用场景集中于实验推理任务，模型需解析包含图像和文本的复杂科学问题，模拟科学家处理实验数据、观察现象并推导结论的过程。这一场景要求模型整合视觉信息与领域知识，执行步骤化推理，从而检验其是否具备类似人类的科学思维与问题解决能力。

实际应用

在实际应用层面，SGI-Reasoning数据集能够驱动开发更强大的AI科研助手。这类系统可辅助研究人员进行文献深度综述、激发创新研究思路、生成可执行的实验代码或湿实验协议，并对复杂的多模态科学数据（如显微镜图像、仿真可视化结果）进行解释与推理。通过提升AI在科学工作流各个环节的参与度，该数据集有望加速科学发现进程，降低研究门槛，并在教育领域用于培养研究生的科学思维与实验设计能力。

衍生相关工作

围绕SGI-Reasoning数据集，已衍生出多项经典研究工作，特别是在智能体评估框架与测试时强化学习方面。其提出的基于智能体的四阶段评估栈，将评分过程标准化、可追溯化，为后续科学基准的构建提供了方法论借鉴。同时，针对数据集中无标准答案的构思生成任务，研究者提出了测试时强化学习方法，通过在线检索构建动态基线来优化生成内容的新颖性，这一创新将开放式科学问题求解转化为可测量的优化过程，并启发了对严谨性、可行性等多目标奖励函数的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集