five

SGI-DryExperiment

收藏
Hugging Face2025-12-10 更新2025-12-11 收录
下载链接:
https://huggingface.co/datasets/InternScience/SGI-DryExperiment
下载链接
链接失效反馈
官方服务:
资源简介:
SGI-Bench是一个科学家对齐的基准,用于评估科学通用智能(SGI)在完整探究周期中的表现:深思熟虑、构思、行动和感知。该基准跨越10个学科,包含1000多个专家策划的样本,灵感来源于《科学》杂志的125个重大问题,并配备了代理评估框架和多指标协议。数据集通过四个科学家对齐的任务家族(深度研究、想法生成、AI辅助实验(干/湿)和多模态实验推理)来操作化这一评估。
创建时间:
2025-12-03
原始信息汇总

数据集概述:SGI-DryExperiment

数据集基本信息

  • 数据集名称:SGI-DryExperiment
  • 托管地址:https://huggingface.co/datasets/InternScience/SGI-DryExperiment
  • 数据集来源:SGI-Bench(Scientific General Intelligence Benchmark)
  • 数据集简介:该数据集是SGI-Bench基准测试的一部分,专注于评估大语言模型在“干实验”(Dry Experiment)任务上的科学通用智能。干实验任务涉及代码/模拟的生成与验证。

数据集结构与特征

  • 数据格式:包含多个字段的结构化数据。
  • 数据特征
    • idx: 样本标识符(字符串类型)。
    • question: 问题描述(字符串类型)。
    • data_code: 数据代码(字符串类型)。
    • main_code: 主代码(字符串类型)。
    • incomplete_main_code: 不完整的主代码(字符串类型)。
    • incomplete_functions: 不完整的函数列表(字符串列表)。
    • unit_test_0_dataunit_test_4_data: 单元测试输入数据(字符串类型)。
    • unit_test_0_outputunit_test_4_output: 单元测试预期输出(字符串类型)。
    • function_type: 函数类型(字符串类型)。
    • runtime: 运行时间(float16类型)。
    • discipline: 所属学科(字符串类型)。
    • direction: 方向(字符串类型)。
  • 数据划分
    • 仅包含一个 test 划分。
    • 样本数量:271。
    • 数据集大小:21,782,245 字节。
    • 下载大小:8,755,155 字节。

所属基准测试框架

  • 基准名称:SGI-Bench (Scientific General Intelligence Benchmark)
  • 核心目标:评估大语言模型在完整科学探究循环(审议、构思、行动、感知)中的科学家对齐的通用智能。
  • 任务家族
    1. 审议:深度研究。
    2. 构思:想法生成。
    3. 行动:干实验/湿实验。
    4. 感知:多模态实验推理。
  • 数据构建
    • 原始语料:涵盖10个学科领域,灵感来源于《科学》杂志的125个重大科学问题。
    • 专家参与:由100多名研究生/博士生在专家持续参与评审下构建问题。
    • 质量控制:通过规则、模型检查和专家质量保证确保可执行性和答案唯一性。
    • 难度筛选:移除超过50%的强语言模型能解决的样本,以保持高挑战性。
  • 评估框架
    • 基于智能体的四阶段评估:问题选择 → 指标定制 → 预测与评估 → 报告生成。
    • 支持工具:网络搜索、PDF解析器、Python解释器、文件阅读器、指标函数。
    • 任务指标:精确匹配/松弛标签准确率;实现相似度;PassAll@k/SER;多选准确率/相对验证。
    • 可定制性:可按需添加科学家对齐的指标(如严谨性、可行性)。

相关资源链接

  • 论文:https://internscience.github.io/SGI-Page/paper.pdf
  • GitHub仓库:https://github.com/InternScience/SGI-Bench
  • 项目主页:https://internscience.github.io/SGI-Page/
  • HuggingFace集合:https://huggingface.co/collections/InternScience/sgi-bench
搜集汇总
数据集介绍
main_image_url
构建方式
在科学计算与仿真领域,SGI-DryExperiment数据集的构建体现了严谨的学术流程。其构建始于一个由专家精心策划的跨学科原始语料库,内容灵感源自《科学》杂志提出的125个重大科学问题,覆盖了十个核心学科领域。随后,超过百名研究生与博士级别的标注者在领域专家的持续监督与循环审核下,进行高质量的问题构造。为确保数据的可执行性与答案的唯一性,构建过程融合了规则过滤、模型校验与专家质量评估等多重清洗机制。最后,通过难度筛选,剔除了那些能被超过半数强语言模型轻易解决的样本,从而保证了数据集整体的挑战性与前沿性。
使用方法
对于希望利用SGI-DryExperiment进行模型评估的研究者,其使用方法已通过开源框架实现标准化与自动化。评估流程始于数据初始化阶段,需运行特定脚本构建代码执行环境。核心评估步骤则依次展开:首先,驱动模型根据问题生成代码答案;随后,在隔离的Python环境中自动执行所生成的代码,并运行预定义的单元测试以验证其功能正确性;最后,根据执行结果与测试通过率等指标进行自动化评分。整个流程封装在清晰的命令行脚本中,研究者可通过按序执行`step_2_get_answer.py`、`step_3_run_code.py`与`step_4_score.py`等脚本,完成从答案生成到性能报告的完整评估循环。
背景与挑战
背景概述
SGI-DryExperiment数据集隶属于SGI-Bench基准测试框架,由InternScience团队于2024年构建,旨在系统评估大语言模型在科学通用智能(SGI)框架下的‘行动’能力,具体聚焦于‘干实验’(Dry Experiment)环节。该数据集的核心研究问题在于探究模型能否根据科学问题生成可执行的代码或模拟程序,并完成验证,从而模拟科学家在计算与仿真研究中的工作流程。其构建灵感源于《科学》杂志提出的125个重大科学问题,覆盖物理学、生物学等十个学科,通过百余位研究生与博士生的专家级标注与循环审核,确保了任务的高保真性与挑战性。该数据集的发布为衡量AI系统在完整科学探究周期中的自动化能力提供了关键工具,推动了面向复杂科学问题解决的智能体评估范式的发展。
当前挑战
SGI-DryExperiment数据集致力于解决科学计算代码生成与验证这一核心领域问题,其面临的首要挑战在于如何精准评估模型生成代码的功能正确性、逻辑严谨性以及对复杂科学概念的准确实现。数据集的构建过程同样充满挑战:一方面,需要从多学科原始语料中设计出兼具科学严谨性与可执行性的编程任务,并确保每个问题具有唯一且可验证的答案;另一方面,必须通过严格的难度过滤机制,剔除那些能被当前主流大语言模型轻易解决的样本,以维持基准测试的高区分度与前沿性。此外,构建过程中还需协调跨领域专家进行持续的质量审核,并设计自动化测试流程来验证生成代码在多样化单元测试下的鲁棒性,这些都对数据集的规模、质量与评估信度提出了极高要求。
常用场景
经典使用场景
在计算科学和人工智能交叉领域,SGI-DryExperiment数据集为评估大型语言模型在科学计算与模拟方面的能力提供了标准测试平台。该数据集的核心应用场景聚焦于“干实验”任务,即要求模型根据给定的科学问题描述,生成可执行的代码或算法来模拟实验过程。研究者通常利用该数据集来系统性地测评模型在理解复杂科学概念、进行逻辑推理以及生成功能正确且高效的代码方面的综合表现,从而衡量其是否具备辅助或自主进行科学探索的潜力。
解决学术问题
该数据集有效应对了人工智能在科学发现自动化研究中的关键挑战,即如何量化评估模型执行完整科学探究循环中“行动”阶段的能力。它通过提供涵盖多学科、具备单元测试验证的代码生成任务,解决了以往基准测试中科学任务真实性不足、评估标准模糊的问题。其意义在于将抽象的“科学通用智能”概念操作化为可测量、可复现的具体任务,为比较不同模型的科学问题解决能力提供了严谨的基准,推动了面向科学发现的AI评估从感知、理解向行动与创造的纵深发展。
实际应用
在实际科研与工程领域,SGI-DryExperiment数据集的能力评估直接关联到AI科研助手工具的效能。例如,在材料科学、计算生物学或物理学研究中,研究人员可利用在此数据集上表现优异的模型,快速生成用于数据模拟、参数扫描或理论验证的脚本代码,大幅提升研究效率。此外,该数据集也为开发能够理解科学文献、复现论文中仿真实验的智能系统提供了训练与评估的基础,有望成为连接科学知识库与自动化实验操作的关键桥梁。
数据集最近研究
最新研究方向
在科学通用智能评估领域,SGI-DryExperiment数据集作为SGI-Bench的核心组成部分,正推动着大语言模型在科学计算与仿真模拟方向的前沿探索。该数据集聚焦于“干实验”任务,要求模型根据科学问题生成可执行的代码并进行单元测试验证,这直接呼应了人工智能辅助科学研究中自动化实验设计的热点趋势。当前研究重点在于提升模型生成代码的严谨性、可复现性以及对复杂科学工作流的理解能力,通过引入实施相似度、通过率等多维度度量,系统评估模型将理论构想转化为具体计算行动的能力。这一方向不仅深化了模型在跨学科科学问题解决中的实用性,也为构建能够自主完成完整科学探究循环的智能体奠定了关键基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作