PreScience

github2026-02-25 更新2026-02-26 收录

下载链接：

https://github.com/allenai/prescience

下载链接

链接失效反馈

官方服务：

资源简介：

PreScience是一个基准测试数据集，用于预测科学贡献。它分解了研究过程为四个相互依赖的生成任务，并评估模型在一个包含98,000篇AI相关arXiv论文（2023年10月至2025年10月）的精选数据集上的表现。该数据集包含消歧的作者身份、时间对齐的学术元数据以及502,000篇论文的结构化图。

PreScience is a benchmark dataset for scientific contribution prediction. It decomposes the research process into four interdependent generative tasks, and evaluates model performance on a curated dataset comprising 98,000 AI-related arXiv papers (October 2023 to October 2025). This dataset includes disambiguated author identities, temporally aligned academic metadata, and a structured graph of 502,000 academic papers.

创建时间：

2026-02-11

原始信息汇总

PreScience 数据集概述

数据集简介

PreScience 是一个用于预测科学贡献的基准测试。它将研究过程分解为四个相互依赖的生成任务，并基于一个精心策划的数据集对模型进行评估。

核心任务

该基准包含以下四个预测任务：

任务	描述	评估指标
合作者预测	给定一位种子作者，预测未来论文的其余作者	nDCG, R-Precision
先前工作选择	给定未来论文的作者，预测其关键参考文献	nDCG, R-Precision
贡献生成	给定论文的作者和关键参考文献，生成论文的标题和摘要	LACERScore, ROUGE-L, BERTScore
影响力预测	预测论文的12个月累计引用次数	MAE, Pearson, Spearman

数据集详情

数据来源：包含 98,000 篇与人工智能相关的 arXiv 论文（时间范围：2023年10月至 2025年10月）。
数据特点：包含消歧后的作者身份、时间对齐的学术元数据，以及一个包含 502,000 篇论文的结构化图。
数据划分：包含训练集（2023年10月–2024年）和测试集（2024年10月–2025年）。
伴随数据：包含 400,000+ 篇伴随论文（参考文献和作者发表历史）。
数据获取：数据集托管于 HuggingFace：https://huggingface.co/datasets/allenai/prescience

基准测试与复现

基准测试脚本涵盖四个核心任务，并提供了从运行基线到评估的完整流程。论文中的主要结果（如表2、表3、表4和图4）可通过运行指定的脚本和配置进行复现。

多轮模拟

支持将合作者预测、先前工作选择和贡献生成组合成一个管道，在指定的时间范围内逐日生成合成语料库，用于分析作者多样性、关键参考文献多样性、LACER 多样性、新颖性和主题分布等。

数据集构建

提供了从零开始构建数据集的完整七阶段流程说明，涉及从 arXiv 快照和 Semantic Scholar API 下载数据、添加关键参考文献和作者信息、作者消歧、添加引用元数据等步骤。由于公共 API 速率限制，此过程可能非常耗时。

搜集汇总

数据集介绍

构建方式

在科学预测研究领域，构建高质量数据集是评估模型预见能力的基础。PreScience数据集通过严谨的多阶段流程构建而成，其核心是从arXiv平台获取2023年10月至2025年10月期间发表的98,000篇人工智能相关论文作为目标样本。构建过程始于从Kaggle获取的arXiv元数据快照与Semantic Scholar API的协同使用，以收集论文的完整学术元数据。随后，通过S2AND工具对作者身份进行消歧，确保作者网络的准确性，并整合了502,000篇相关论文的结构化引用图谱。数据集进一步补充了关键参考文献、作者出版历史及引用轨迹等丰富上下文信息，最终通过GritLM、SPECTER2等嵌入模型计算文本表征，形成了涵盖训练集与测试集的时序对齐语料库。

特点

该数据集在科学预测任务中展现出多维度、结构化的显著特点。其核心在于将科研过程解构为合作者预测、关键参考文献选择、贡献生成及影响力预测四个相互关联的子任务，为模型评估提供了系统化框架。数据集不仅包含论文的标题、摘要等基础文本信息，还整合了消歧后的作者身份、时序对齐的学术元数据以及大规模的引用网络，构成了一个动态演化的学术图谱。此外，数据集提供了多种预计算的文本嵌入表征，支持基于不同语义模型的对比实验。这种多层次、多任务的设计使得数据集能够全面评估模型对科学创新过程的模拟与预测能力。

使用方法

为促进科学预测研究的可复现性，数据集提供了模块化的使用方案。用户可通过HuggingFace平台直接加载处理好的数据集，或利用开源代码库中的脚本进行本地实验。代码库为每个预测任务提供了多种基线模型实现，包括基于频率、嵌入融合、排序融合及层次聚类等方法，并支持使用GPT、Claude、LLaMA等大型语言模型进行贡献生成任务。实验流程通常遵循数据加载、基线模型运行、预测结果生成及多指标评估的步骤，其中嵌入计算、模型微调等环节均有详细配置说明。此外，代码库支持多轮模拟实验，允许将不同预测任务组合成端到端的科研过程仿真，为探索科学发现的动态机制提供了工具支持。

背景与挑战

背景概述

在人工智能与科学计量学交叉领域，预测科学发现的动态演进成为一项前沿挑战。PreScience基准由艾伦人工智能研究所于2024年构建，旨在系统评估人工智能模型基于历史科学记录预测未来科学贡献的能力。该数据集聚焦人工智能相关领域的arXiv论文，通过解构科研过程为合作者预测、关键文献选择、贡献生成和影响力预测四个相互关联的子任务，构建了包含98,000篇目标论文及502,000篇关联论文的时序知识图谱。其核心研究问题在于探索机器学习模型能否超越传统文献计量方法，实现对科学创新轨迹的前瞻性建模，为理解科学发现的涌现规律提供了全新的量化框架。

当前挑战

PreScience所应对的核心领域挑战在于科学贡献预测这一高度复杂任务的建模难度，其需同时处理科研合作网络动态演化、学术知识继承关系、创新内容生成及影响力传播等多维度不确定性。具体构建挑战体现在：首先，大规模学术数据的时序对齐与作者身份消歧需要融合多源异构数据并克服学术实体名称歧义；其次，科学贡献的生成性预测要求模型具备深层语义理解与创造性推理能力，超越了传统分类或回归任务的范畴；再者，构建涵盖完整科研链条的评估框架需设计能反映科学发现本质的复合型指标，如兼顾新颖性与连贯性的LACERScore。这些挑战共同指向了当前人工智能在模拟人类科学认知过程方面存在的理论空白与技术瓶颈。

常用场景

经典使用场景

在科学计量学与人工智能交叉领域，PreScience数据集为预测学术贡献提供了结构化基准。其最经典的使用场景在于评估模型对科研过程四个核心环节的预测能力：给定一位种子作者，模型需预测其未来合作者；基于作者信息，推断其未来论文的关键参考文献；结合作者与参考文献，生成论文的标题与摘要；并预测论文发表后12个月内的累计引用量。这一多任务框架系统模拟了科研产出的完整生命周期，为衡量AI系统对科学进程的预见性提供了标准化测试平台。

衍生相关工作

围绕PreScience数据集，已衍生出一系列探索科学预测前沿的经典工作。基于其任务框架，研究者开发了融合频率统计、嵌入表示与层次聚类的多种基线模型，并深入分析了作者经验、合作熟悉度等因素对预测性能的影响。在贡献生成任务上，工作比较了从GPT、Claude到LLaMA、OLMo等大语言模型的性能差异。多轮模拟仿真研究则进一步探讨了AI驱动下科学合作网络与知识演化的动态特性，为理解与干预科学进程提供了新的方法论工具。

数据集最近研究