SGI-Reasoning

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/InternScience/SGI-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

SGI-Bench是一个用于评估科学通用智能（SGI）的基准测试数据集，旨在模拟科学家的工作流程，包括深思熟虑、构思、行动和感知四个阶段。数据集包含多学科、多模态的样本，涵盖了10个学科领域，并包含专家精心策划的样本。数据集的特征包括问题、图像、选项、步骤、步骤图像、答案等，旨在提供高保真、科学家对齐的任务，这些任务具有真实性、挑战性和广泛的代表性。

创建时间：

2025-12-03

原始信息汇总

数据集概述：SGI-Reasoning

数据集基本信息

数据集名称：SGI-Reasoning
托管地址：https://huggingface.co/datasets/InternScience/SGI-Reasoning
数据来源：InternScience
数据集规模：420,495,056 字节
下载大小：387,054,257 字节
样本数量：291 个示例
数据拆分：仅包含“test”拆分

数据集特征（Features）

数据集包含以下字段：

idx：字符串类型，样本索引。
question：字符串类型，问题文本。
images：图像列表，与问题相关的图像。
options：字符串列表，选项列表。
steps：字符串列表，推理步骤文本。
step_images：图像列表，与推理步骤相关的图像。
answer：整型（int32），正确答案索引。
image_type：字符串类型，图像类型。
discipline：字符串类型，所属学科。
direction：字符串类型，方向。
type：字符串类型，问题类型。

数据集背景与目的

该数据集是“SGI-Bench”基准测试的一部分，旨在评估模型在科学通用智能（Scientific General Intelligence, SGI）方面的能力。SGI指的是AI系统能够像人类科学家一样，自主地、迭代地完成“深思-构思-行动-感知”这一完整的科学探究循环。本数据集聚焦于该循环中的感知（Perception）阶段，具体任务为多模态实验推理。

数据集构建

原始语料：由专家策划，涵盖10个学科领域，灵感来源于《科学》杂志的125个重大科学问题。
问题构建：由100多名研究生和博士生进行标注，并经过持续的专家循环评审。
数据清洗：通过规则、模型检查和专家问答确保任务的可执行性和答案的唯一性。
难度筛选：移除了被超过50%的强大语言模型解决的样本，以保持高挑战性。

评估框架

数据集服务于一个智能体化评估框架，该框架包含四个阶段：问题选择 → 指标定制 → 预测与评估 → 报告生成。评估使用了专门的工具池（如网络搜索、PDF解析器、Python解释器）和任务指标。

使用说明

数据集的配置文件（config）名为“default”，数据文件路径模式为data/test-*。用户可通过克隆GitHub仓库并按照“Quick Start”部分的指引，设置环境并运行脚本来进行任务评估。

搜集汇总

数据集介绍

构建方式

在科学智能评估领域，SGI-Reasoning数据集的构建体现了严谨的学术范式。其构建过程始于一个由专家精心策划的原始语料库，内容涵盖十个学科领域，并受到《科学》杂志125个重大问题的启发。随后，超过百名研究生和博士级别的标注者在专家持续参与和审查的循环中，进行问题的构造与设计。为确保数据的高质量和可执行性，构建流程融合了规则过滤、模型校验与专家质量评估等多重清洗机制，并特别移除了那些能够被超过半数强语言模型轻易解决的样本，从而维持了数据集固有的高挑战性，最终形成了兼具真实性与广泛代表性的科学家对齐任务集合。

特点

该数据集的核心特征在于其深度对齐于科学探究的完整循环。数据集严格遵循实践探究模型，将科学智能解构为深思、构思、行动与感知四个相互关联的阶段，并据此设计了涵盖深度研究、创意生成、干湿实验以及多模态实验推理的多样化任务家族。其样本不仅具有高度的学科覆盖度和真实性，更通过精心设计的难度过滤机制，确保了评估任务对前沿模型而言依然具备显著的挑战性。这种结构化的任务设计，使得数据集能够系统性地评估智能体在整合知识检索、概念形成、行动执行与结果解释这一完整科学探究闭环中的综合能力。

使用方法

对于研究者而言，使用SGI-Reasoning数据集进行模型评估是一个结构化的流程。评估框架被形式化为包含问题选择、指标定制、预测与评估、报告生成四个可追溯的阶段，并提供了一个包含网络搜索、PDF解析、Python解释器等工具的工具池以支持智能体操作。具体到每个任务，例如深度研究或实验推理，用户需按照指南配置相应的Python环境并运行分步脚本，以获取模型答案并进行自动化评分。该框架支持根据科学严谨性、可行性等维度定制科学家对齐的评估指标，从而将开放式的科学探究任务转化为可量化、可复现的标准化评测过程。

背景与挑战

背景概述

SGI-Reasoning数据集由InternScience团队于2024年构建，旨在系统评估大型语言模型的科学通用智能。该数据集根植于科学探究的完整循环理论，涵盖审议、构思、行动与感知四大核心环节，并跨越十个学科领域，其灵感源于《科学》杂志提出的125个重大科学问题。通过邀请逾百名研究生与博士作为标注者，并在专家持续监督下进行数据构建，该数据集致力于模拟真实科研工作流程中的复杂推理任务，为衡量人工智能在跨学科、多模态科学问题解决中的综合能力提供了高标准基准，推动了科学智能评估从单一任务向系统性、流程化范式的演进。

当前挑战

该数据集致力于解决科学通用智能评估中的核心挑战，即如何设计一个能够全面衡量AI系统在完整科学探究循环中表现能力的基准。具体挑战包括：在领域问题层面，需克服科学推理的多模态性、跨学科知识整合以及开放域创意生成中缺乏确定答案的评估难题；在构建过程中，则面临高质量专家数据的稀缺性、标注流程的复杂一致性维护，以及为确保任务难度而需动态过滤已被现有强模型轻易解决的样本，从而保持基准的前沿性与挑战性。

常用场景

经典使用场景

在人工智能与科学交叉领域，SGI-Reasoning数据集作为评估科学通用智能的基准，其经典使用场景聚焦于模拟科学家完整探究循环的端到端评估。该数据集通过涵盖审议、构思、行动与感知四大任务族，为大型语言模型提供了多模态、多步骤的科学推理测试平台。研究者通常利用其结构化的任务流与专家标注的样本，系统性地衡量模型在跨学科复杂问题解决中整合知识检索、创新构想、实验执行与结果解释的综合能力，从而推动模型向具备自主科学探究能力的智能体演进。

衍生相关工作

围绕SGI-Reasoning数据集已衍生出一系列经典研究工作，其中最具代表性的是测试时强化学习方法的创新应用。研究团队针对无标准答案的构思任务，设计了以格式遵循性与新颖性为奖励的优化框架，成功提升了模型在开放科学问题中的创新产出质量。此外，基于该数据集构建的智能体评估栈也催生了多项关于评估可复现性、减轻评估者-模型耦合偏差的方法学改进，为后续科学基准的构建与模型能力的系统性提升提供了重要范式。

数据集最近研究