SGI-IdeaGeneration

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/InternScience/SGI-IdeaGeneration

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'用科学家对齐的工作流程探测LLMs的科学通用智能'，是一个用于评估科学通用智能（SGI）的基准，涵盖完整的探究周期：思考、构思、行动和感知。数据集跨越10个学科，包含1000多个由专家策划的样本，灵感来源于《科学》杂志的125个重大问题。数据集特征包括科学探究的各个方面，如问题、相关工作、挑战、局限性、动机、任务目标、现有解决方案、关键词、核心思想、实施步骤、实施顺序、数据、评估指标、预期结果、相关工作测试、学科和方向。数据集设计用于代理评估，包括深度研究、想法生成、AI辅助实验和多模态实验推理等任务。

创建时间：

2025-12-03

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows (SGI-IdeaGeneration)
托管地址: https://huggingface.co/datasets/InternScience/SGI-IdeaGeneration
数据集构成: 该数据集是SGI-Bench基准测试中“构想”阶段对应的“想法生成”任务数据集。

数据集结构与内容

数据规模: 包含315个样本。
数据格式: 包含18个特征字段。
特征字段详情:
- idx: 样本索引，字符串类型。
- question: 问题描述，字符串类型。
- related_work: 相关工作，字符串类型。
- challenge: 挑战，字符串类型。
- limitation: 局限性，字符串类型。
- motivation: 动机，字符串类型。
- task_objective: 任务目标，字符串类型。
- existing_solutions: 现有解决方案，字符串类型。
- keywords: 关键词，字符串序列。
- core_idea: 核心想法，字符串类型。
- implementation_steps: 实施步骤，字符串类型。
- implementation_order: 实施顺序，字符串序列。
- data: 数据，字符串类型。
- evaluation_metrics: 评估指标，字符串类型。
- expected_outcome: 预期结果，字符串类型。
- related_work_test: 相关工作测试，字符串类型。
- discipline: 学科领域，字符串类型。
- direction: 研究方向，字符串类型。
数据划分: 仅包含一个test划分。

所属基准测试背景

基准测试名称: SGI-Bench (Scientific General Intelligence Benchmark)。
核心目标: 评估人工智能在完整科学探究循环中的科学通用智能。
探究循环框架: 基于实践探究模型，包含四个阶段：
1. 深思熟虑: 深度研究（多跳检索、综合与元分析式推理）。
2. 构想: 想法生成（结构化构思与多维度比较评估）。
3. 行动: 干/湿实验（代码/模拟与实验室协议生成及验证）。
4. 感知: 多模态推理（过程/观察/模拟/实验/可视化图像推理）。

数据构建与特点

数据来源: 灵感来源于《科学》杂志的125个重大科学问题，涵盖10个学科领域。
构建过程: 由100多名研究生/博士生注释者进行专家在环的持续审查。
质量控制: 通过规则、模型检查和专家问答进行数据清洗，确保可执行性和答案唯一性。
难度筛选: 移除了超过50%的强语言模型能够解决的样本，以保持高挑战性。

评估方法

评估框架: 基于智能体的四阶段评估框架（问题选择 → 指标定制 → 预测与评估 → 报告生成）。
评估指标: 采用多指标协议，包括精确匹配/松弛标签准确率、实施相似性、PassAll@k/SER、多选准确率/相对值等。
特色方法: 针对想法生成任务的无真实答案问题，提出了测试时强化学习方法，通过在线检索作为动态基线来优化想法的新颖性。

相关资源

论文: https://internscience.github.io/SGI-Page/paper.pdf
项目主页: https://internscience.github.io/SGI-Page/
GitHub代码库: https://github.com/InternScience/SGI-Bench
HuggingFace集合: https://huggingface.co/collections/InternScience/sgi-bench

搜集汇总

数据集介绍

构建方式

在科学探究的宏大叙事中，SGI-IdeaGeneration数据集的构建体现了对科研工作流中“构思”环节的深度模拟。其构建过程植根于专家精心策划的跨学科原始语料库，这些语料灵感源自《科学》杂志提出的125个重大科学问题。超过百名研究生与博士级别的标注者在专家持续在环的监督下，共同完成了问题的构造与样本生成。为确保数据的高保真度与可执行性，构建流程融合了规则清洗、模型校验与专家质量评估等多重过滤机制，并特别移除了那些被主流大语言模型轻易解决的样本，从而保证了数据集的挑战性与前沿性。

特点

作为评估科学通用智能在“构思”阶段能力的关键基准，该数据集展现出鲜明的结构化与多维度特征。其样本设计严格遵循科学家实际工作中的思维框架，每个条目均包含从研究问题、相关文献、挑战局限到核心思想、实施步骤与评估指标等十余个结构化字段，完整覆盖了科研构思的全过程。数据集横跨十个主要学科领域，确保了评估的广度与代表性。其核心特点在于将开放式的科学创意生成任务，转化为可量化、可比较的结构化输出，为衡量模型在无标准答案场景下的创新性、严谨性与可行性提供了坚实的评估基础。

使用方法

对于旨在评估或提升模型科学构思能力的研究者而言，该数据集的使用遵循一套清晰、可复现的评估框架。用户首先需配置指定的Python环境并安装相关依赖库。评估流程通常分为两个核心步骤：首先运行脚本以驱动模型针对数据集中的结构化问题生成回答；随后调用专门的评分脚本，依据预设的多维度指标对生成结果进行自动化评估。该框架支持灵活的代理式评估，允许集成网络搜索、代码解释器等工具来模拟真实的科研辅助场景。研究者亦可在此基础上，探索测试时强化学习等进阶方法，以优化模型在构思新颖性等方面的表现。

背景与挑战

背景概述

在人工智能与科学发现交叉融合的前沿领域，科学通用智能（Scientific General Intelligence, SGI）的评估成为一项关键挑战。SGI-IdeaGeneration数据集作为SGI-Bench基准的重要组成部分，由InternScience研究团队于近期构建并发布。该数据集旨在系统性地评估大型语言模型在完整科学探究循环——特别是“构思”阶段——的创新能力，其核心研究问题聚焦于如何量化AI系统在跨学科背景下进行结构化科学构思的效能。数据集灵感来源于《科学》杂志的125个重大科学问题，覆盖10个学科领域，通过逾百名研究生与博士生的专家级标注流程构建，为衡量模型在无明确答案的开放性问题中生成新颖、可行科学想法的能力提供了高标准、细粒度的评估框架，对推动AI驱动的科学研究自动化具有深远影响。

当前挑战

该数据集旨在解决的领域核心挑战是科学创意生成任务的评估难题。科学构思本质上是开放、无标准答案且高度依赖领域知识的，传统基于精确匹配的评估指标在此失效。因此，数据集构建面临的首要挑战是设计能够量化创意“新颖性”、“严谨性”与“可行性”的多维度、可计算的评估协议。在构建过程中，挑战同样显著：为确保数据的科学严谨性与高保真度，需要协调大量具备专业背景的标注者进行持续工作，并实施专家在环的严格审查机制；同时，为避免任务被现有强大模型轻易解决，需通过难度过滤机制剔除那些已有超过半数先进模型能够处理的样本，以维持基准的高挑战性，这一过程对数据清洗与质量把控提出了极高要求。

常用场景

经典使用场景

在人工智能与科学交叉的前沿领域，SGI-IdeaGeneration数据集为评估大语言模型在科学构思阶段的通用智能提供了基准。其经典使用场景聚焦于结构化科学想法的生成与评估，研究者通过该数据集的任务框架，能够系统性地测试模型在给定科学问题、相关工作和挑战背景下，提出具备核心思想、实施步骤及预期成果的创新方案的能力。这一过程模拟了科学家从文献调研到概念形成的完整思维链条，为衡量模型的科学创造力与逻辑严谨性提供了标准化平台。

衍生相关工作

围绕SGI-IdeaGeneration数据集，已催生了一系列拓展科学人工智能边界的研究工作。其中，测试时强化学习（TTRL）方法利用该数据集的无标注特性，通过在线检索与新颖性奖励机制，实现了在测试阶段动态优化模型生成想法的原创性，为开放域创造性任务的评估与优化提供了新范式。此外，基于该数据集构建的智能体评估框架，将工具调用、多阶段推理与科学家对齐的度量标准相结合，启发了后续研究如何构建更全面、可复现且偏差更低的科学智能评估流程。这些工作共同深化了我们对模型在完整科学探究循环中表现的理解，并推动了面向真实世界科学发现的AI系统开发。

数据集最近研究