Sci-Reasoning

github2026-01-07 更新2026-01-13 收录

下载链接：

https://github.com/AmberLJC/Sci-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

Sci-Reasoning是第一个以结构化格式捕获AI突破背后推理模式的数据集，包含3,819篇论文（999篇Oral，2,820篇Spotlight）来自NeurIPS、ICML和ICLR（2023-2025），以及结构化谱系图和15种不同的思维模式。

Sci-Reasoning is the first dataset that captures the reasoning patterns behind AI breakthroughs in a structured format. It includes 3,819 papers (999 Oral papers and 2,820 Spotlight papers) accepted at NeurIPS, ICML and ICLR from 2023 to 2025, along with structured lineage diagrams and 15 distinct thinking modes.

创建时间：

2026-01-07

原始信息汇总

Sci-Reasoning 数据集概述

数据集简介

Sci-Reasoning 是首个旨在以结构化格式捕捉人工智能突破背后推理模式的数据集。该数据集捕获了高质量人工智能研究背后结构化的知识综合过程。

数据集规模与来源

论文数量：包含 3,819 篇论文。
论文构成：包含 999 篇 Oral 论文和 2,820 篇 Spotlight 论文。
来源会议：论文来自 NeurIPS、ICML 和 ICLR 会议。
时间范围：涵盖 2023 年至 2025 年的论文。

核心内容与结构

结构化谱系图：捕获知识前驱和关系。
思维模式：通过系统分析识别出 15 种不同的思维模式。

数据模式

数据集遵循以下 JSON 模式： json { "target_paper": { "title": "...", "venue": "...", "year": 2024 }, "intellectual_predecessors": [ { "title": "Predecessor title", "role": "BASELINE|INSPIRATION|GAP_IDENTIFICATION|FOUNDATION", "relationship_type": "EXTENDS|COMBINES_WITH|ADDRESSES_LIMITATION_OF" } ], "synthesis_narrative": "...", "primary_pattern": "Gap-Driven Reframing", "secondary_pattern": "Representation Shift" }

创新模式示例

模式	占比	描述
Gap-Driven Reframing	24.2%	重新定义问题以映射到更合适的方法上
Cross-Domain Synthesis	18.0%	从其他领域引入思想
Representation Shift	10.5%	替换基本元素以简化问题

引用信息

如需引用本数据集，请使用以下 BibTeX 条目： bibtex @article{liu2025scireasoning, title={Sci-Reasoning: A Dataset Decoding AI Innovation Patterns}, author={Liu, Jiachen and Harmon, Maestro and Zhang, Zechen}, year={2025} }

许可证

本数据集采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在人工智能研究领域，系统性地捕捉创新思维模式对于理解科学突破至关重要。Sci-Reasoning数据集的构建遵循严谨的多阶段流程：首先，从NeurIPS、ICML和ICLR三大顶级会议（2023-2025年）中收集了3,819篇高质量论文（包括999篇口头报告和2,820篇焦点论文）。随后，通过自动化管道追溯每篇目标论文的学术谱系，提取其智力前驱，并标注它们在研究中的具体角色（如基线、灵感来源、缺口识别或基础）及关系类型（如扩展、结合或解决局限性）。最后，利用大型语言模型对论文内容进行系统性分析，识别并归类出15种独特的思维模式，从而形成结构化的智力合成图谱。

使用方法

研究人员可利用该数据集进行多层面的探索。在学术研究方面，可通过分析谱系图和思维模式分布，实证性地研究人工智能领域的创新规律与知识演化路径。在技术开发层面，该数据集可作为训练或评估大型语言模型科学推理能力的基准，例如评估模型在给定研究背景下生成新颖研究想法的能力。具体操作上，用户可依据数据集的JSON架构，直接解析目标论文、其智力前驱网络以及对应的思维模式标签，进而开展网络分析、模式挖掘或作为下游任务（如自动文献综述、研究灵感生成）的高质量输入数据。

背景与挑战

背景概述

在人工智能研究迅猛发展的背景下，理解驱动领域突破的内在创新逻辑成为一项关键科学议题。Sci-Reasoning数据集应运而生，由Jiachen Liu、Maestro Harmon和Zechen Zhang等研究人员于2025年创建。该数据集首次系统性地捕捉了高质量AI研究背后的结构化推理模式，其核心研究问题聚焦于解码人工智能领域的创新规律与知识合成路径。通过整合NeurIPS、ICML和ICLR三大顶级会议在2023至2025年间发表的3,819篇论文，并构建刻画学术谱系的结构化溯源图，该数据集为量化分析科学发现的思维范式提供了重要基础，对推动AI研究的元科学探索具有深远影响力。

当前挑战

Sci-Reasoning数据集致力于解决人工智能创新模式解码这一前沿领域问题，其首要挑战在于如何从海量学术文献中精准、自动化地提取非显性的知识传承与思维跃迁关系，这超越了传统的文献计量或引文分析。在构建过程中，研究团队面临多重技术挑战：一是需要设计鲁棒的流水线，从论文文本中可靠地识别‘智力前驱’并界定其角色与关系类型；二是通过系统分析归纳出具有区分度的思维模式类别，并确保标注的一致性与可解释性；三是处理大规模学术数据时的可扩展性与计算资源管理问题，这些挑战共同构成了该数据集构建的核心难点。

常用场景

经典使用场景

在人工智能研究领域，Sci-Reasoning数据集为探索创新思维模式提供了结构化分析基础。该数据集通过解析NeurIPS、ICML和ICLR等顶级会议的高质量论文，构建了涵盖3,819篇文献的智力谱系图，并识别出15种独特的思维模式。研究者可借助其结构化数据，深入剖析论文间的继承与融合关系，从而揭示AI突破背后的系统性推理路径，为理解科学发现的逻辑框架提供实证支持。

解决学术问题

Sci-Reasoning数据集致力于解决人工智能研究中创新模式难以量化与追溯的学术难题。传统研究往往依赖定性分析，而该数据集通过标注论文的智力前驱、关系类型及思维模式，将隐性的创新过程转化为可计算的结构化表示。这使学者能够系统性地检验如“差距驱动重构”或“跨领域合成”等模式的有效性，为创新理论提供数据驱动的验证基础，推动了AI方法论研究的科学化进程。

实际应用

在实际应用中，Sci-Reasoning数据集可作为AI研究辅助工具的核心组件。科研机构或企业研发团队可利用其结构化谱系图，快速定位领域内的关键基础工作与前沿方向，优化文献调研效率。同时，该数据集支撑的思维模式分类能力，能够辅助研究者识别高潜力创新路径，为课题规划与交叉灵感激发提供数据参考，从而加速从理论到实践的转化周期。

数据集最近研究