SGI-WetExperiment

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/InternScience/SGI-WetExperiment

下载链接

链接失效反馈

官方服务：

资源简介：

SGI-Bench是一个科学家对齐的基准测试，用于评估科学通用智能（SGI）在整个探究周期中的表现：深思熟虑、构思、行动和感知。该基准跨越10个学科，包含1000多个专家策划的样本，灵感来自《科学》杂志的125个重大问题，并采用代理评估框架和多指标协议。

SGI-Bench is a scientist-aligned benchmark for evaluating the performance of Scientific General Intelligence (SGI) across the full cycle of scientific inquiry: deliberation, conception, action, and perception. Spanning 10 academic disciplines, this benchmark includes over 1,000 expert-curated samples, which are inspired by the 125 grand challenge questions from the journal *Science*, and adopts an agent-based evaluation framework and multi-metric protocol.

创建时间：

2025-12-03

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows (SGI-WetExperiment)
数据集地址: https://huggingface.co/datasets/InternScience/SGI-WetExperiment
数据集简介: 该数据集是SGI-Bench基准测试的一部分，专注于评估大语言模型在“湿实验”（实验室协议）方面的能力，属于科学通用智能评估框架中的“行动”阶段。

数据集结构与内容

数据特征:
- idx: 索引标识符，数据类型为字符串。
- question: 问题描述，数据类型为字符串。
- action_pool: 行动池，数据类型为字符串。
- answer: 答案，数据类型为字符串。
- discipline: 学科领域，数据类型为字符串。
- direction: 研究方向，数据类型为字符串。
数据划分:
- 仅包含一个test（测试）集。
- 测试集样本数量: 68。
- 测试集大小: 894,882 字节。
数据量:
- 下载大小: 396,582 字节。
- 数据集总大小: 894,882 字节。

所属基准与任务

基准名称: SGI-Bench (Scientific General Intelligence Benchmark)
核心任务: Wet Experiment (Lab Protocol) - 湿实验（实验室协议生成与验证）。
任务描述: 该任务属于SGI评估框架中的“行动”阶段，要求模型生成和验证实验室操作协议。
评估框架阶段: 行动 (Action)。
整体基准范围: 涵盖完整科学探究循环的四个阶段：深思熟虑、概念形成、行动执行和感知推理。
基准规模: 跨越10个学科，包含超过1,000个由专家策划的样本，灵感来源于《科学》杂志的125个重大科学问题。

评估方法

评估框架: 基于智能体的评估框架，包含问题选择、指标定制、预测与评估、报告生成四个阶段。
相关评估指标: 在湿实验任务中，可能涉及执行相似性等指标。
评估工具: 支持网络搜索、PDF解析器、Python解释器、文件阅读器、度量函数等工具。

相关资源

论文: https://internscience.github.io/SGI-Page/paper.pdf
GitHub仓库: https://github.com/InternScience/SGI-Bench
项目主页: https://internscience.github.io/SGI-Page/
HuggingFace集合: https://huggingface.co/collections/InternScience/sgi-bench

搜集汇总

数据集介绍

构建方式

在科学智能评估领域，SGI-WetExperiment数据集的构建体现了严谨的学术范式。其构建过程植根于专家策展的原始语料库，涵盖十个学科领域，灵感源自《科学》杂志提出的125个重大科学问题。超过百名研究生与博士作为标注者，在持续的专家循环评审指导下，完成了问题的构造。为确保数据的可执行性与答案的唯一性，构建流程融合了规则清洗、模型校验与专家质量评估。通过难度过滤机制，移除了被超过半数强语言模型轻易解决的样本，从而维持了数据集的高挑战性，最终形成了兼具真实性与广泛代表性的科学家对齐任务集合。

特点

该数据集的核心特征在于其深度对齐科学家的实际工作流程，专注于湿实验（Wet Experiment）场景下的实验室协议生成与验证。作为SGI-Bench基准的重要组成部分，它旨在评估模型在完整科学探究循环——即深思、构思、行动与感知——中“行动”阶段的能力。数据集包含68个高质量测试样本，每个样本均配备了问题、动作池、答案、学科与方向等结构化特征，确保了评估任务的明确性与可操作性。其设计不仅强调协议生成的准确性，更关注实验方案的可行性与科学性，从而为衡量模型的科学通用智能提供了高保真度的测试平台。

使用方法

使用SGI-WetExperiment数据集进行评估，需遵循其配套的代理评估框架。用户首先需克隆项目代码库并配置指定的Python环境。针对湿实验任务，评估流程主要分为两步：运行`step_1_get_answer.py`脚本以获取模型对给定问题的回答，随后通过`step_2_score.py`脚本进行评分。该框架集成了专门的评估指标，如精确匹配与相似度评估，并支持根据科学家对齐的标准（如严谨性、可行性）定制化扩展度量。这种模块化、可追溯的评估方式，有效提升了结果的可复现性，并为深入分析模型在实验设计方面的智能表现提供了系统化路径。

背景与挑战

背景概述

在人工智能与科学计算交叉领域，评估模型在真实科研流程中的综合能力成为前沿议题。SGI-WetExperiment数据集作为SGI-Bench基准的重要组成部分，由InternScience团队于2024年构建，旨在系统评估大语言模型在湿实验（即实体实验室操作）方面的协议生成与验证能力。该数据集根植于“科学通用智能”理念，模拟科学家从问题提出到实验设计的完整探究循环，覆盖生物学、化学等十个学科，其构建灵感来源于《科学》杂志的125个重大科学问题。通过百余名研究生与博士生的专家级标注与审核，该数据集致力于推动AI在复杂、开放式的科学问题解决中展现类人的推理与执行能力，为衡量模型的科学素养与实操智能提供了高标准、多维度的重要范本。

当前挑战

该数据集旨在解决湿实验协议生成这一高度专业化领域的评估挑战，其核心难点在于确保生成协议的可行性、安全性与科学性，这要求模型不仅掌握深度的学科知识，还需理解实验室设备、试剂配伍及操作时序等现实约束。在构建过程中，团队面临多重挑战：一是数据的高保真性要求，需通过专家循环审核与多轮清洗来保证每个样本的答案唯一且可执行；二是难度控制，必须过滤掉现有强语言模型能够轻易解决的样本，以维持基准的区分度与前沿性；三是评估框架的设计，需开发兼顾结构合规性与内容新颖性的多指标协议，并将开环的创意生成任务转化为可量化优化的测试时强化学习问题，这对奖励函数设计与在线检索基准的建立提出了极高要求。

常用场景

经典使用场景

在科学人工智能领域，评估大型语言模型是否具备科学家般的综合探究能力是核心挑战。SGI-WetExperiment数据集作为SGI-Bench基准的重要组成部分，其经典使用场景聚焦于对模型‘湿实验’环节的评估。具体而言，该数据集要求模型根据给定的科学问题，生成可执行的实验室操作协议。这一过程模拟了真实科研中从理论设想到动手实践的关键跨越，旨在检验模型能否将抽象的科学概念转化为具体、严谨、可重复的实验室步骤，从而衡量其在完整科学探究循环中‘行动’阶段的智能水平。

实际应用

超越纯粹的学术评测，SGI-WetExperiment数据集在现实世界中具有明确的应用价值。它能够作为训练和优化AI科研助手的基础设施，助力开发能够辅助实验设计、自动化生成实验方案、甚至指导实验室新手的智能系统。在生物化学、材料科学、药物研发等高度依赖实验操作的学科中，此类系统可以加速实验流程的规划与标准化，减少人为设计错误，并作为教育工具帮助学生或研究人员理解复杂实验的逻辑与步骤，从而提升科研效率与可重复性。

衍生相关工作

围绕SGI-WetExperiment及其所属的SGI-Bench基准，已衍生出一系列重要的相关研究工作。其提出的基于智能体的评估框架，为后续科学AI评测工作提供了模块化、可复现的工程范式。数据集内嵌的测试时强化学习（TTRL）方法，为解决无标准答案的开放式科学构思任务提供了新颖的优化思路。此外，该基准催生的多模型性能排行榜，持续激励着社区开发更强大的科学大模型，并引发了关于如何定义和衡量‘科学智能’的深入方法论讨论，推动了该子领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集