SGI-DeepResearch

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/PrismaX/SGI-DeepResearch

下载链接

链接失效反馈

官方服务：

资源简介：

科学通用智能（SGI）评估基准数据集，包含10个学科领域的约1000个专家策划的样本，用于评估AI系统在科学探究全周期中的表现。

创建时间：

2025-11-30

原始信息汇总

SGI-DeepResearch 数据集概述

数据集基本信息

数据集名称: SGI-DeepResearch
发布者: PrismaX
存储库地址: https://huggingface.co/datasets/PrismaX/SGI-DeepResearch
论文地址: https://arxiv.org/abs/2401.xxxxx
项目主页: https://prismax-team.github.io/SGI-Page/
GitHub代码库: https://github.com/PrismaX-Team/SGI-Bench
HuggingFace集合: https://huggingface.co/collections/PrismaX/sgi-bench

数据集结构与内容

数据格式: 包含 idx、question、steps、answer、discipline、direction、type 字段的结构化数据。
数据规模: 测试集包含 318 个样本，总大小为 575,572 字节。
下载大小: 318,459 字节。
唯一数据划分: 测试集。

数据集背景与目的

该数据集是 SGI-Bench 基准测试的一部分，旨在评估科学通用智能。SGI-Bench 是一个科学家对齐的基准，用于评估涵盖完整探究周期的科学通用智能：审议、构思、行动和感知。基准涵盖 10 个学科，包含约 1,000 个专家策划的样本，其灵感来源于《科学》杂志的 125 个重大问题，并采用智能体评估框架和多指标协议。

核心任务：深度研究

SGI-DeepResearch 对应 SGI 框架中的“审议”阶段，专注于深度研究任务。该任务涉及多跳检索、综合和元分析风格的推理。

数据构建过程

原始语料库: 涵盖 10 个领域的专家策划文本/图像，灵感来源于《科学》杂志的 125 个重大问题。
问题构建: 由 100 多名研究生/博士生注释者参与，并经过持续的专家在环审查。
数据清洗: 通过规则、模型检查和专家问答确保可执行性和答案唯一性。
难度过滤: 移除了超过 50% 的强大型语言模型能够解决的样本，以保持高挑战性。

评估框架

评估阶段: 问题选择 → 指标定制 → 预测与评估 → 报告生成。
工具池: 网络搜索、PDF 解析器、Python 解释器、文件阅读器、指标函数。
任务指标: 精确匹配/松弛标签准确率；实现相似度；PassAll@k/句子错误率；多选准确率/相对验证。
可定制性: 可按需添加科学家对齐的指标。

引用信息

如需使用此数据集，请引用：

@article{sgi2025, title={SGI-Bench: Scientific Intelligence Benchmark via Scientist-Aligned Workflows}, author={Research Team}, journal={arXiv preprint arXiv:2401.xxxxx}, year={2025} }

搜集汇总

数据集介绍

构建方式

在科学智能评估领域，SGI-DeepResearch数据集的构建体现了严谨的专家驱动范式。其原始语料源自《科学》杂志125个重大科学问题所启发的跨学科文本与图像，覆盖十个核心学科领域。构建过程由逾百名研究生与博士级标注者参与，并辅以持续的专家在环审核机制，确保问题设计的学术深度与真实性。数据清洗环节融合了规则过滤、模型校验与专家质量评估，以保障任务的可行性与答案的唯一性。此外，通过难度筛选机制，剔除了当前强语言模型解决率超过50%的样本，从而维持了数据集的高挑战性，最终形成了兼具高保真度与广泛代表性的科学家对齐任务集合。

特点

该数据集的核心特征在于其深度嵌入了科学探究的完整循环框架。数据集以“深思、构思、行动、感知”四阶段模型为理论基石，专门针对深度研究这一认知维度设计任务，要求模型进行多跳检索、综合分析与元分析式推理。其样本结构清晰，每个条目均包含问题、分解步骤、答案及所属学科、方向与类型等元数据，为评估提供了丰富的上下文信息。数据集规模精炼而聚焦，包含318个测试样本，均经过严格筛选以保证其学术挑战性，能够有效衡量智能体在复杂科学问题中的深层推理与知识整合能力。

使用方法

使用该数据集进行评估时，需依托其配套的智能体化评估框架。该框架将评估流程规范化为问题选择、指标定制、预测执行与报告生成四个可追溯的阶段。用户可通过集成网络搜索、PDF解析、Python解释器等工具池来模拟真实的科研辅助环境。评估指标不仅包含精确匹配与步骤级准确率等传统度量，还引入了针对科学任务特点的定制化评分标准。研究者可通过官方提供的代码库复现评估流程，该设计提升了评估结果的可复现性，并有效降低了评估者与模型之间的耦合偏差，从而产出更具行动指导意义的科学家对齐洞察。

背景与挑战

背景概述

在人工智能与科学交叉研究领域，评估模型是否具备科学家般的系统性探究能力成为前沿议题。SGI-DeepResearch数据集由PrismaX团队于2025年构建，其核心研究问题聚焦于如何定义并衡量科学通用智能，即模型能否自主完成包含审议、构思、行动与感知的完整科学探究循环。该数据集以《科学》杂志提出的125个重大科学问题为灵感，涵盖十个学科领域，旨在通过专家精心标注的样本，为评估模型在深度研究任务中的多跳检索、综合分析与元推理能力提供高标准基准，对推动AI驱动的科学发现具有重要影响力。

当前挑战

该数据集致力于解决科学通用智能评估中的核心挑战，即如何设计能够全面反映真实科学研究复杂性、且超越传统单任务评测的基准。具体挑战包括：在领域问题层面，需建模科学探究的非线性迭代过程，整合跨学科知识，并处理开放环境中缺乏确定答案的创造性问题；在构建过程中，则面临确保专家标注的严谨性与一致性、过滤被现有大语言模型轻易解决的样本以维持高难度，以及设计可执行且具有唯一答案的高保真任务等多重困难。

常用场景

经典使用场景

在科学智能评估领域，SGI-DeepResearch数据集常被用于测试和验证人工智能系统在深度研究任务中的综合能力。该数据集通过多跳检索、综合分析与元分析式推理，模拟了科学家在探索复杂科学问题时的完整思维过程。其精心设计的任务结构覆盖了从问题提出到答案生成的各个环节，为评估模型在跨学科知识整合与逻辑推理方面的表现提供了标准化平台。

衍生相关工作

围绕该数据集衍生的经典研究包括测试时强化学习在开放科学问题生成中的应用，以及基于多阶段智能体框架的自动化评估系统开发。相关工作进一步拓展了科学家对齐评估的边界，例如将严谨性、可行性等质性指标纳入量化评估体系，并探索了多模态科学推理与湿实验协议生成等新兴方向，持续推动科学智能向更全面、更实用的方向发展。

数据集最近研究