SGI-DryExperiment

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/PrismaX/SGI-DryExperiment

下载链接

链接失效反馈

官方服务：

资源简介：

SGI-Bench是一个科学通用智能（SGI）评估基准数据集，包含10个学科领域的约1000个由专家策划的样本，样本基于《Science》杂志提出的125个重大科学问题。该数据集通过深度研究、想法生成、干湿实验辅助和多媒体实验推理等四个任务家族，全面评估AI系统在科学探究全周期中的表现。

创建时间：

2025-11-30

原始信息汇总

数据集概述：PrismaX/SGI-DryExperiment

数据集基本信息

数据集名称：SGI-DryExperiment
发布者：PrismaX
存储位置：https://huggingface.co/datasets/PrismaX/SGI-DryExperiment
相关论文：SGI-Bench: Scientific Intelligence Benchmark via Scientist-Aligned Workflows (arXiv:2401.xxxxx)
GitHub代码库：https://github.com/PrismaX-Team/SGI-Bench
项目主页：https://prismax-team.github.io/SGI-Page/
HuggingFace集合：https://huggingface.co/collections/PrismaX/sgi-bench

数据集背景与目的

该数据集是SGI-Bench（科学通用智能基准测试）的一部分，专注于评估科学通用智能（SGI）。SGI指的是能够像人类科学家一样，自主导航完整的、迭代的科学探究周期（审议、构思、行动、感知）的人工智能系统。SGI-Bench通过四个与科学家对齐的任务系列来具体化这一定义：深度研究、想法生成、AI辅助实验（干/湿）以及多模态实验推理。本数据集对应其中的“行动”阶段，具体为“干实验”（Dry Experiment）任务。

数据集内容与结构

数据量：测试集包含271个样本。
数据大小：下载大小约为8.36 MB，数据集大小约为20.78 MB。
数据格式：包含20个字段的结构化数据。

数据特征（Features）

idx: 样本索引（字符串类型）。
question: 问题描述（字符串类型）。
data_code: 数据代码（字符串类型）。
main_code: 主代码（字符串类型）。
incomplete_main_code: 不完整的主代码（字符串类型）。
incomplete_functions: 不完整的函数列表（字符串列表）。
unit_test_0_data 至 unit_test_4_data: 单元测试输入数据（字符串类型）。
unit_test_0_output 至 unit_test_4_output: 单元测试预期输出（字符串类型）。
function_type: 函数类型（字符串类型）。
runtime: 运行时间（float16类型）。
discipline: 学科领域（字符串类型）。
direction: 方向（字符串类型）。

在SGI-Bench中的定位

所属任务系列：行动（Action）。
具体任务：干实验（Dry Experiment），涉及代码/模拟的生成与验证。
评估框架：基于智能体的评估框架，包含问题选择、指标定制、预测与评估、报告生成四个阶段。
评估指标：可能包括实现相似度（Implementation Similarity）、PassAll@k/SER等。

数据构建与特点

数据来源：原始语料库由专家策划，涵盖10个领域，灵感来源于《科学》杂志的125个重大科学问题。
构建过程：由100多名研究生/博士生注释者参与，并有持续的专家参与循环审查。
质量控制：通过规则、模型检查和专家问答进行数据清理，以确保可执行性和答案的唯一性。
难度筛选：移除了超过50%的强大型语言模型能够解决的样本，以保持高挑战性。
特点：高保真度、与科学家任务对齐、真实、具有挑战性且具有广泛代表性。

引用信息

如需在学术工作中使用此数据集，请引用：

@article{sgi2025, title={SGI-Bench: Scientific Intelligence Benchmark via Scientist-Aligned Workflows}, author={Research Team}, journal={arXiv preprint arXiv:2401.xxxxx}, year={2025} }

搜集汇总

数据集介绍

构建方式

在科学计算与仿真领域，数据集的构建质量直接关系到模型评估的可靠性。SGI-DryExperiment数据集作为SGI-Bench基准的一部分，其构建过程体现了严谨的科学家对齐原则。该数据集源自跨十个学科领域的专家精选文本与图像，灵感源于《科学》杂志提出的125个重大科学问题。通过组织超过百名研究生与博士级别的标注者，在专家持续参与评审的闭环机制下，完成问题构造。随后，结合规则过滤、模型检查与专家质量评估的多重清洗流程，确保每个样本的代码可执行性与答案唯一性。最后，采用难度过滤策略，剔除那些能够被超过半数强语言模型轻易解决的样本，从而维持数据集的高挑战性，最终形成了包含271个高质量测试样本的集合。

特点

该数据集的核心特征在于其深度整合了科学探究循环中的“行动”环节，专注于干实验（Dry Experiment）的代码生成与验证任务。每个样本均提供了完整的自然语言问题描述、对应的可执行数据代码、主体代码，以及特意设计的不完整代码片段与缺失函数列表，以此模拟真实科研中填补关键代码逻辑的场景。数据集还配备了多达五组的单元测试输入输出对，为自动化评估代码功能正确性提供了精确标准。此外，样本均标注了函数类型、运行时间、所属学科及研究方向，这种多维度的元信息结构使得数据集不仅能评估代码生成能力，还能支持对模型在特定科学领域与任务类型上表现的细粒度分析。

使用方法

使用该数据集进行评估时，需遵循其配套的智能体化评估框架。评估流程始于从数据集中选取问题，随后根据任务目标定制评估指标，例如对于代码生成任务，可采用“全部通过率@k”或“实现相似度”等指标。在预测与评估阶段，模型需要根据给定的问题和不完整代码，生成缺失的函数实现。生成的代码将通过预置的单元测试进行验证，判断其功能正确性。整个评估过程可借助框架提供的工具池（如Python解释器）自动化执行，确保结果的可复现性。最终，框架将生成结构化的评估报告，为衡量模型在科学计算与仿真方面的通用智能提供量化依据。

背景与挑战

背景概述

SGI-DryExperiment数据集隶属于SGI-Bench基准测试框架，由PrismaX研究团队于2025年构建，旨在评估人工智能系统在科学通用智能（SGI）框架下的“行动”能力，具体聚焦于干实验（Dry Experiment）场景。该数据集根植于科学探究的完整循环模型，核心研究问题在于检验AI模型能否像人类科学家一样，通过代码编写与仿真模拟自主执行科学实验设计、验证与分析。其构建灵感来源于《科学》杂志提出的125个重大科学问题，覆盖十个学科领域，通过专家与研究生协作标注，确保了任务的高保真性与学科代表性。该数据集的建立为衡量AI在计算科学、物理建模等领域的自动化推理与执行能力提供了关键基准，推动了科学发现智能化进程的实证研究。

当前挑战

SGI-DryExperiment数据集致力于解决科学计算与仿真实验自动化领域的核心挑战，即如何让AI系统理解复杂科学问题，并生成可执行、正确且符合科学逻辑的代码。这一领域问题的难点在于，模型需同时具备深厚的领域知识、严谨的逻辑推理能力以及精准的编程实现技能。在数据集构建过程中，研究团队面临多重挑战：首先，确保每个任务样本具有唯一的正确答案，需通过严格的规则检查、模型验证与专家质量评估流程；其次，维持任务的高难度性，需过滤掉现有强大语言模型能够轻易解决的样本，以保留对前沿模型的区分度；此外，保证生成代码的可执行性与单元测试的完备性，涉及复杂的测试用例设计与运行时环境验证，这对数据清洗与标注提出了极高要求。

常用场景

经典使用场景

在计算科学与人工智能交叉领域，SGI-DryExperiment数据集为评估模型在科学探究循环中“行动”阶段的仿真实验能力提供了基准。该数据集通过提供包含问题描述、不完整代码片段及单元测试的样本，模拟了科学家在计算机辅助实验设计中的典型工作流程。研究人员利用该数据集训练和测试模型生成可执行代码、完成函数补全，并验证其是否符合科学实验的严谨性要求，从而推动模型在科学计算自动化方面的发展。

衍生相关工作

围绕SGI-DryExperiment数据集，已衍生出多项聚焦于科学代码生成与智能体评估的经典研究工作。这些工作主要沿两个方向展开：一是改进模型架构与训练策略，以提升其在多学科代码补全和单元测试通过率上的性能；二是扩展评估框架，将数据集的干实验任务与湿实验、深度研究等其他科学探究阶段相结合，构建更完整的端到端科学智能体评估体系，推动了科学通用智能从概念定义走向实际评测的进程。

数据集最近研究