SGI-WetExperiment
收藏Hugging Face2025-12-02 更新2025-12-03 收录
下载链接:
https://huggingface.co/datasets/PrismaX/SGI-WetExperiment
下载链接
链接失效反馈官方服务:
资源简介:
科学通用智能(SGI)评估基准,包含10个学科的约1000个由专家策划的样本,样本受到《Science》杂志125个重大问题的启发。数据集通过科学家参与的流程构建,包含问题、动作池、答案等字段,并提供了代理性评估框架和多种工具及指标。
创建时间:
2025-11-30
原始信息汇总
数据集概述:PrismaX/SGI-WetExperiment
数据集基本信息
- 数据集名称:SGI-WetExperiment
- 发布者:PrismaX
- 存储库地址:https://huggingface.co/datasets/PrismaX/SGI-WetExperiment
- 相关论文:https://arxiv.org/abs/2401.xxxxx
- GitHub代码库:https://github.com/PrismaX-Team/SGI-Bench
- 项目主页:https://prismax-team.github.io/SGI-Page/
- HuggingFace集合:https://huggingface.co/collections/PrismaX/sgi-bench
数据集来源与背景
- 该数据集是SGI-Bench(科学通用智能基准测试)的一部分,用于评估科学通用智能。
- SGI-Bench旨在评估AI系统在完整、迭代的科学探究周期(审议、构思、行动、感知)中的能力,其水平与人类科学家相当。
- 基准测试涵盖10个学科,包含约1,000个专家策划的样本,灵感来源于《科学》杂志的125个重大科学问题。
- 数据集构建过程包括专家策划的原始语料、由100多名研究生/博士生注释者进行的持续专家参与式审查、数据清洗以及难度过滤(移除超过50%的强LLM能解决的样本)。
数据集内容与结构
- 数据特征:
idx:字符串类型,样本索引。question:字符串类型,问题。action_pool:字符串类型,行动池。answer:字符串类型,答案。discipline:字符串类型,所属学科。direction:字符串类型,方向。
- 数据划分:
- 仅包含
test(测试)集。 - 样本数量:68个。
- 仅包含
- 数据规模:
- 下载大小:396,582字节。
- 数据集大小:894,882字节。
数据集在SGI-Bench中的定位
- 该数据集对应SGI-Bench框架中“行动”阶段的“湿实验”任务。
- SGI-Bench包含四个科学家对齐的任务家族:
- 审议:深度研究(多跳检索、综合和元分析式推理)。
- 构思:想法生成(结构化构思和多维比较评估)。
- 行动:干/湿实验(代码/模拟和实验室协议生成与验证)。
- 感知:多模态推理(过程/观察/模拟/实验/可视化图像推理)。
评估框架与指标
- 评估框架:基于智能体的评估框架,包含问题选择、指标定制、预测与评估、报告生成四个阶段。
- 工具池:包括网络搜索、PDF解析器、Python解释器、文件阅读器、指标函数。
- 任务指标:包括EM/SLA;实现相似性;PassAll@k/SER;MCA/RV。
- 可定制性:支持按需添加科学家对齐的指标(如严谨性、可行性)。
引用信息
@article{sgi2025, title={SGI-Bench: Scientific Intelligence Benchmark via Scientist-Aligned Workflows}, author={Research Team}, journal={arXiv preprint arXiv:2401.xxxxx}, year={2025} }
搜集汇总
数据集介绍

构建方式
在科学智能评估领域,SGI-WetExperiment数据集的构建体现了严谨的专家驱动范式。其原始语料源自《科学》杂志125个重大科学问题所启发的跨学科知识,覆盖十个核心学科领域。构建过程依托超过百名研究生与博士组成的标注团队,并引入持续的专家在环审核机制,确保问题的科学深度与真实性。通过结合规则过滤、模型校验与专家质量评估的多层清洗流程,剔除了可执行性不足或答案非唯一的样本,并基于强语言模型的解题表现过滤了难度过低的条目,最终形成了兼具高保真度与挑战性的专家对齐任务集合。
特点
SGI-WetExperiment数据集的核心特征在于其深度对齐真实科学工作流程,专注于湿实验协议生成与验证这一关键环节。数据集以结构化形式呈现,每个样本均包含问题描述、可选操作池、标准答案及所属学科与方向,为评估模型在实验设计与操作规划方面的能力提供了清晰框架。其任务设计根植于实践探究模型,将科学探究视为审议、构思、行动与感知的迭代循环,从而能够系统检验智能体在完整科学探究周期中的行动执行与协议生成能力。数据样本经过严格难度筛选,确保能够有效区分不同模型的科学推理水平。
使用方法
该数据集主要服务于科学通用智能体的评估与能力分析。使用者可通过官方提供的智能体评估框架进行系统测试,该框架集成了网络搜索、PDF解析、Python解释器等工具池,支持从问题选择、指标定制到预测评估与报告生成的全流程。针对湿实验任务,评估通常关注协议生成的准确性与可执行性,可采用精确匹配或相似度度量等指标。研究人员亦可利用其结构化数据,专注于模型在特定学科方向的实验规划能力分析,或将其纳入更广泛的科学智能基准测试中,以综合衡量模型在行动阶段的性能表现。
背景与挑战
背景概述
SGI-WetExperiment数据集隶属于SGI-Bench基准测试框架,由PrismaX团队于2025年构建,旨在评估科学通用智能在湿实验(wet experiment)领域的执行能力。该数据集聚焦于科学探究循环中的行动阶段,核心研究问题在于检验人工智能系统能否生成并验证真实世界实验室环境下的实验协议。其构建灵感源自《科学》杂志提出的125个重大科学问题,覆盖10个学科领域,通过超过100名研究生与博士注释者的专家级标注,确保了数据的高保真度与挑战性。该数据集的建立为衡量AI在复杂、动态的湿实验设计中的实际应用潜力提供了关键基准,推动了科学发现自动化研究的前沿发展。
当前挑战
该数据集旨在解决的领域挑战是评估AI在湿实验协议生成与验证方面的能力,这要求模型不仅理解跨学科的科学原理,还需掌握具体实验操作的可执行性与安全性约束,其复杂性远超传统的代码生成或模拟任务。在构建过程中,主要挑战包括确保实验问题的真实性与高难度,需通过专家持续审核与严格的难度过滤机制,移除能被当前强语言模型以超过50%成功率解决的样本;同时,维持数据的可执行性与答案唯一性也需依赖规则检查、模型验证与人工质量保证的多重流程,以避免生成模糊或不可操作的实验方案。
常用场景
经典使用场景
在科学智能评估领域,SGI-WetExperiment数据集作为SGI-Bench基准的核心组成部分,专门用于评估人工智能系统在湿实验(wet experiment)场景下的协议生成与验证能力。该数据集通过模拟真实实验室环境中的生物、化学等学科实验任务,要求模型根据给定的科学问题生成可执行的实验步骤,从而检验其将理论知识转化为实际操作方案的科学推理与规划能力。这一经典使用场景不仅涵盖了实验设计、材料选择、流程优化等关键环节,还强调了实验安全性与可行性,为衡量AI在复杂科学探究循环中的行动阶段表现提供了标准化测试平台。
解决学术问题
SGI-WetExperiment数据集有效应对了当前人工智能研究在科学领域面临的若干核心挑战。它解决了传统评估方法难以量化AI系统在真实科学工作流中综合能力的问题,通过结构化任务设计将抽象的科学探究过程分解为可测量的行动单元。该数据集的意义在于建立了连接理论构想与实验实践的桥梁,使得研究者能够系统评估模型在无明确答案的开放环境下的协议生成质量,推动了科学通用智能从概念框架向可操作化指标的转变,对促进AI驱动的自主科学发现具有深远影响。
衍生相关工作
围绕SGI-WetExperiment数据集,已衍生出多项具有影响力的研究工作。例如,基于其实验协议生成任务,研究者开发了结合检索增强与强化学习的测试时优化方法,以提升模型输出方案的创新性与可行性。同时,该数据集促进了多模态科学推理模型的发展,这些模型能够整合文本指令与可视化实验数据进行分析。在评估框架方面,相关工作引入了科学家对齐的指标,如严谨性、可重复性等,推动了更全面、更贴近真实科研需求的智能评估体系的建立,为科学通用智能的长期发展奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



