SGI-DryExperiment
收藏Hugging Face2025-12-02 更新2025-12-03 收录
下载链接:
https://huggingface.co/datasets/PrismaX/SGI-DryExperiment
下载链接
链接失效反馈官方服务:
资源简介:
SGI-Bench是一个科学通用智能(SGI)评估基准数据集,包含10个学科领域的约1000个由专家策划的样本,样本基于《Science》杂志提出的125个重大科学问题。该数据集通过深度研究、想法生成、干湿实验辅助和多媒体实验推理等四个任务家族,全面评估AI系统在科学探究全周期中的表现。
创建时间:
2025-11-30
原始信息汇总
数据集概述:PrismaX/SGI-DryExperiment
数据集基本信息
- 数据集名称:SGI-DryExperiment
- 发布者:PrismaX
- 存储位置:https://huggingface.co/datasets/PrismaX/SGI-DryExperiment
- 相关论文:SGI-Bench: Scientific Intelligence Benchmark via Scientist-Aligned Workflows (arXiv:2401.xxxxx)
- GitHub代码库:https://github.com/PrismaX-Team/SGI-Bench
- 项目主页:https://prismax-team.github.io/SGI-Page/
- HuggingFace集合:https://huggingface.co/collections/PrismaX/sgi-bench
数据集背景与目的
该数据集是SGI-Bench(科学通用智能基准测试)的一部分,专注于评估科学通用智能(SGI)。SGI指的是能够像人类科学家一样,自主导航完整的、迭代的科学探究周期(审议、构思、行动、感知)的人工智能系统。SGI-Bench通过四个与科学家对齐的任务系列来具体化这一定义:深度研究、想法生成、AI辅助实验(干/湿)以及多模态实验推理。本数据集对应其中的“行动”阶段,具体为“干实验”(Dry Experiment)任务。
数据集内容与结构
- 数据量:测试集包含271个样本。
- 数据大小:下载大小约为8.36 MB,数据集大小约为20.78 MB。
- 数据格式:包含20个字段的结构化数据。
数据特征(Features)
- idx: 样本索引(字符串类型)。
- question: 问题描述(字符串类型)。
- data_code: 数据代码(字符串类型)。
- main_code: 主代码(字符串类型)。
- incomplete_main_code: 不完整的主代码(字符串类型)。
- incomplete_functions: 不完整的函数列表(字符串列表)。
- unit_test_0_data 至 unit_test_4_data: 单元测试输入数据(字符串类型)。
- unit_test_0_output 至 unit_test_4_output: 单元测试预期输出(字符串类型)。
- function_type: 函数类型(字符串类型)。
- runtime: 运行时间(float16类型)。
- discipline: 学科领域(字符串类型)。
- direction: 方向(字符串类型)。
在SGI-Bench中的定位
- 所属任务系列:行动(Action)。
- 具体任务:干实验(Dry Experiment),涉及代码/模拟的生成与验证。
- 评估框架:基于智能体的评估框架,包含问题选择、指标定制、预测与评估、报告生成四个阶段。
- 评估指标:可能包括实现相似度(Implementation Similarity)、PassAll@k/SER等。
数据构建与特点
- 数据来源:原始语料库由专家策划,涵盖10个领域,灵感来源于《科学》杂志的125个重大科学问题。
- 构建过程:由100多名研究生/博士生注释者参与,并有持续的专家参与循环审查。
- 质量控制:通过规则、模型检查和专家问答进行数据清理,以确保可执行性和答案的唯一性。
- 难度筛选:移除了超过50%的强大型语言模型能够解决的样本,以保持高挑战性。
- 特点:高保真度、与科学家任务对齐、真实、具有挑战性且具有广泛代表性。
引用信息
如需在学术工作中使用此数据集,请引用:
@article{sgi2025, title={SGI-Bench: Scientific Intelligence Benchmark via Scientist-Aligned Workflows}, author={Research Team}, journal={arXiv preprint arXiv:2401.xxxxx}, year={2025} }
搜集汇总
数据集介绍

构建方式
在科学计算与仿真领域,数据集的构建质量直接关系到模型评估的可靠性。SGI-DryExperiment数据集作为SGI-Bench基准的一部分,其构建过程体现了严谨的科学家对齐原则。该数据集源自跨十个学科领域的专家精选文本与图像,灵感源于《科学》杂志提出的125个重大科学问题。通过组织超过百名研究生与博士级别的标注者,在专家持续参与评审的闭环机制下,完成问题构造。随后,结合规则过滤、模型检查与专家质量评估的多重清洗流程,确保每个样本的代码可执行性与答案唯一性。最后,采用难度过滤策略,剔除那些能够被超过半数强语言模型轻易解决的样本,从而维持数据集的高挑战性,最终形成了包含271个高质量测试样本的集合。
特点
该数据集的核心特征在于其深度整合了科学探究循环中的“行动”环节,专注于干实验(Dry Experiment)的代码生成与验证任务。每个样本均提供了完整的自然语言问题描述、对应的可执行数据代码、主体代码,以及特意设计的不完整代码片段与缺失函数列表,以此模拟真实科研中填补关键代码逻辑的场景。数据集还配备了多达五组的单元测试输入输出对,为自动化评估代码功能正确性提供了精确标准。此外,样本均标注了函数类型、运行时间、所属学科及研究方向,这种多维度的元信息结构使得数据集不仅能评估代码生成能力,还能支持对模型在特定科学领域与任务类型上表现的细粒度分析。
使用方法
使用该数据集进行评估时,需遵循其配套的智能体化评估框架。评估流程始于从数据集中选取问题,随后根据任务目标定制评估指标,例如对于代码生成任务,可采用“全部通过率@k”或“实现相似度”等指标。在预测与评估阶段,模型需要根据给定的问题和不完整代码,生成缺失的函数实现。生成的代码将通过预置的单元测试进行验证,判断其功能正确性。整个评估过程可借助框架提供的工具池(如Python解释器)自动化执行,确保结果的可复现性。最终,框架将生成结构化的评估报告,为衡量模型在科学计算与仿真方面的通用智能提供量化依据。
背景与挑战
背景概述
SGI-DryExperiment数据集隶属于SGI-Bench基准测试框架,由PrismaX研究团队于2025年构建,旨在评估人工智能系统在科学通用智能(SGI)框架下的“行动”能力,具体聚焦于干实验(Dry Experiment)场景。该数据集根植于科学探究的完整循环模型,核心研究问题在于检验AI模型能否像人类科学家一样,通过代码编写与仿真模拟自主执行科学实验设计、验证与分析。其构建灵感来源于《科学》杂志提出的125个重大科学问题,覆盖十个学科领域,通过专家与研究生协作标注,确保了任务的高保真性与学科代表性。该数据集的建立为衡量AI在计算科学、物理建模等领域的自动化推理与执行能力提供了关键基准,推动了科学发现智能化进程的实证研究。
当前挑战
SGI-DryExperiment数据集致力于解决科学计算与仿真实验自动化领域的核心挑战,即如何让AI系统理解复杂科学问题,并生成可执行、正确且符合科学逻辑的代码。这一领域问题的难点在于,模型需同时具备深厚的领域知识、严谨的逻辑推理能力以及精准的编程实现技能。在数据集构建过程中,研究团队面临多重挑战:首先,确保每个任务样本具有唯一的正确答案,需通过严格的规则检查、模型验证与专家质量评估流程;其次,维持任务的高难度性,需过滤掉现有强大语言模型能够轻易解决的样本,以保留对前沿模型的区分度;此外,保证生成代码的可执行性与单元测试的完备性,涉及复杂的测试用例设计与运行时环境验证,这对数据清洗与标注提出了极高要求。
常用场景
经典使用场景
在计算科学与人工智能交叉领域,SGI-DryExperiment数据集为评估模型在科学探究循环中“行动”阶段的仿真实验能力提供了基准。该数据集通过提供包含问题描述、不完整代码片段及单元测试的样本,模拟了科学家在计算机辅助实验设计中的典型工作流程。研究人员利用该数据集训练和测试模型生成可执行代码、完成函数补全,并验证其是否符合科学实验的严谨性要求,从而推动模型在科学计算自动化方面的发展。
衍生相关工作
围绕SGI-DryExperiment数据集,已衍生出多项聚焦于科学代码生成与智能体评估的经典研究工作。这些工作主要沿两个方向展开:一是改进模型架构与训练策略,以提升其在多学科代码补全和单元测试通过率上的性能;二是扩展评估框架,将数据集的干实验任务与湿实验、深度研究等其他科学探究阶段相结合,构建更完整的端到端科学智能体评估体系,推动了科学通用智能从概念定义走向实际评测的进程。
数据集最近研究
最新研究方向
在科学通用智能评估领域,SGI-DryExperiment数据集聚焦于干实验任务,旨在推动人工智能在科学探究循环中行动阶段的自主代码生成与验证能力。前沿研究围绕强化学习驱动的测试时优化展开,通过无监督奖励机制提升模型生成代码的新颖性与结构化程度。这一方向呼应了当前大模型在复杂科学问题求解中缺乏可执行性与严谨性的挑战,其影响在于为构建具备完整科学工作流能力的智能体提供了可量化的基准,促进了跨学科代码合成与实验模拟技术的融合创新。
以上内容由遇见数据集搜集并总结生成



