SGI-DryExperiment

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/InternScience/SGI-DryExperiment

下载链接

链接失效反馈

官方服务：

资源简介：

SGI-Bench是一个科学家对齐的基准，用于评估科学通用智能（SGI）在完整探究周期中的表现：深思熟虑、构思、行动和感知。该基准跨越10个学科，包含1000多个专家策划的样本，灵感来源于《科学》杂志的125个重大问题，并配备了代理评估框架和多指标协议。数据集通过四个科学家对齐的任务家族（深度研究、想法生成、AI辅助实验（干/湿）和多模态实验推理）来操作化这一评估。

创建时间：

2025-12-03

原始信息汇总

数据集概述：SGI-DryExperiment

数据集基本信息

数据集名称：SGI-DryExperiment
托管地址：https://huggingface.co/datasets/InternScience/SGI-DryExperiment
数据集来源：SGI-Bench（Scientific General Intelligence Benchmark）
数据集简介：该数据集是SGI-Bench基准测试的一部分，专注于评估大语言模型在“干实验”（Dry Experiment）任务上的科学通用智能。干实验任务涉及代码/模拟的生成与验证。

数据集结构与特征

数据格式：包含多个字段的结构化数据。
数据特征：
- idx: 样本标识符（字符串类型）。
- question: 问题描述（字符串类型）。
- data_code: 数据代码（字符串类型）。
- main_code: 主代码（字符串类型）。
- incomplete_main_code: 不完整的主代码（字符串类型）。
- incomplete_functions: 不完整的函数列表（字符串列表）。
- unit_test_0_data 至 unit_test_4_data: 单元测试输入数据（字符串类型）。
- unit_test_0_output 至 unit_test_4_output: 单元测试预期输出（字符串类型）。
- function_type: 函数类型（字符串类型）。
- runtime: 运行时间（float16类型）。
- discipline: 所属学科（字符串类型）。
- direction: 方向（字符串类型）。
数据划分：
- 仅包含一个 test 划分。
- 样本数量：271。
- 数据集大小：21,782,245 字节。
- 下载大小：8,755,155 字节。

所属基准测试框架

基准名称：SGI-Bench (Scientific General Intelligence Benchmark)
核心目标：评估大语言模型在完整科学探究循环（审议、构思、行动、感知）中的科学家对齐的通用智能。
任务家族：
1. 审议：深度研究。
2. 构思：想法生成。
3. 行动：干实验/湿实验。
4. 感知：多模态实验推理。
数据构建：
- 原始语料：涵盖10个学科领域，灵感来源于《科学》杂志的125个重大科学问题。
- 专家参与：由100多名研究生/博士生在专家持续参与评审下构建问题。
- 质量控制：通过规则、模型检查和专家质量保证确保可执行性和答案唯一性。
- 难度筛选：移除超过50%的强语言模型能解决的样本，以保持高挑战性。
评估框架：
- 基于智能体的四阶段评估：问题选择 → 指标定制 → 预测与评估 → 报告生成。
- 支持工具：网络搜索、PDF解析器、Python解释器、文件阅读器、指标函数。
- 任务指标：精确匹配/松弛标签准确率；实现相似度；PassAll@k/SER；多选准确率/相对验证。
- 可定制性：可按需添加科学家对齐的指标（如严谨性、可行性）。

相关资源链接

论文：https://internscience.github.io/SGI-Page/paper.pdf
GitHub仓库：https://github.com/InternScience/SGI-Bench
项目主页：https://internscience.github.io/SGI-Page/
HuggingFace集合：https://huggingface.co/collections/InternScience/sgi-bench

搜集汇总

数据集介绍

构建方式

在科学计算与仿真领域，SGI-DryExperiment数据集的构建体现了严谨的学术流程。其构建始于一个由专家精心策划的跨学科原始语料库，内容灵感源自《科学》杂志提出的125个重大科学问题，覆盖了十个核心学科领域。随后，超过百名研究生与博士级别的标注者在领域专家的持续监督与循环审核下，进行高质量的问题构造。为确保数据的可执行性与答案的唯一性，构建过程融合了规则过滤、模型校验与专家质量评估等多重清洗机制。最后，通过难度筛选，剔除了那些能被超过半数强语言模型轻易解决的样本，从而保证了数据集整体的挑战性与前沿性。

使用方法

对于希望利用SGI-DryExperiment进行模型评估的研究者，其使用方法已通过开源框架实现标准化与自动化。评估流程始于数据初始化阶段，需运行特定脚本构建代码执行环境。核心评估步骤则依次展开：首先，驱动模型根据问题生成代码答案；随后，在隔离的Python环境中自动执行所生成的代码，并运行预定义的单元测试以验证其功能正确性；最后，根据执行结果与测试通过率等指标进行自动化评分。整个流程封装在清晰的命令行脚本中，研究者可通过按序执行`step_2_get_answer.py`、`step_3_run_code.py`与`step_4_score.py`等脚本，完成从答案生成到性能报告的完整评估循环。

背景与挑战

背景概述

SGI-DryExperiment数据集隶属于SGI-Bench基准测试框架，由InternScience团队于2024年构建，旨在系统评估大语言模型在科学通用智能（SGI）框架下的‘行动’能力，具体聚焦于‘干实验’（Dry Experiment）环节。该数据集的核心研究问题在于探究模型能否根据科学问题生成可执行的代码或模拟程序，并完成验证，从而模拟科学家在计算与仿真研究中的工作流程。其构建灵感源于《科学》杂志提出的125个重大科学问题，覆盖物理学、生物学等十个学科，通过百余位研究生与博士生的专家级标注与循环审核，确保了任务的高保真性与挑战性。该数据集的发布为衡量AI系统在完整科学探究周期中的自动化能力提供了关键工具，推动了面向复杂科学问题解决的智能体评估范式的发展。

当前挑战

SGI-DryExperiment数据集致力于解决科学计算代码生成与验证这一核心领域问题，其面临的首要挑战在于如何精准评估模型生成代码的功能正确性、逻辑严谨性以及对复杂科学概念的准确实现。数据集的构建过程同样充满挑战：一方面，需要从多学科原始语料中设计出兼具科学严谨性与可执行性的编程任务，并确保每个问题具有唯一且可验证的答案；另一方面，必须通过严格的难度过滤机制，剔除那些能被当前主流大语言模型轻易解决的样本，以维持基准测试的高区分度与前沿性。此外，构建过程中还需协调跨领域专家进行持续的质量审核，并设计自动化测试流程来验证生成代码在多样化单元测试下的鲁棒性，这些都对数据集的规模、质量与评估信度提出了极高要求。

常用场景

经典使用场景

在计算科学和人工智能交叉领域，SGI-DryExperiment数据集为评估大型语言模型在科学计算与模拟方面的能力提供了标准测试平台。该数据集的核心应用场景聚焦于“干实验”任务，即要求模型根据给定的科学问题描述，生成可执行的代码或算法来模拟实验过程。研究者通常利用该数据集来系统性地测评模型在理解复杂科学概念、进行逻辑推理以及生成功能正确且高效的代码方面的综合表现，从而衡量其是否具备辅助或自主进行科学探索的潜力。

解决学术问题

该数据集有效应对了人工智能在科学发现自动化研究中的关键挑战，即如何量化评估模型执行完整科学探究循环中“行动”阶段的能力。它通过提供涵盖多学科、具备单元测试验证的代码生成任务，解决了以往基准测试中科学任务真实性不足、评估标准模糊的问题。其意义在于将抽象的“科学通用智能”概念操作化为可测量、可复现的具体任务，为比较不同模型的科学问题解决能力提供了严谨的基准，推动了面向科学发现的AI评估从感知、理解向行动与创造的纵深发展。

实际应用

在实际科研与工程领域，SGI-DryExperiment数据集的能力评估直接关联到AI科研助手工具的效能。例如，在材料科学、计算生物学或物理学研究中，研究人员可利用在此数据集上表现优异的模型，快速生成用于数据模拟、参数扫描或理论验证的脚本代码，大幅提升研究效率。此外，该数据集也为开发能够理解科学文献、复现论文中仿真实验的智能系统提供了训练与评估的基础，有望成为连接科学知识库与自动化实验操作的关键桥梁。

数据集最近研究