SciJudgeBench

github2026-03-17 更新2026-03-15 收录

下载链接：

https://github.com/tongjingqi/AI-Can-Learn-Scientific-Taste

下载链接

链接失效反馈

官方服务：

资源简介：

SciJudgeBench是一个大规模基准数据集，包含696,758个领域和时间匹配的论文对，源自210万篇arXiv论文，用于科学品味学习的偏好建模和对齐问题。

SciJudgeBench is a large-scale benchmark dataset containing 696,758 domain and temporally matched paper pairs derived from 2.1 million arXiv papers, targeted at preference modeling and alignment tasks for scientific taste learning.

创建时间：

2026-03-12

原始信息汇总

AI Can Learn Scientific Taste 数据集概述

数据集简介

该数据集旨在研究“科学品味”，即判断和提出具有高潜在影响力研究想法的能力。数据集伴随论文《AI Can Learn Scientific Taste》构建，提出了一种利用大规模社区信号作为监督的训练范式——基于社区反馈的强化学习，并将科学品味学习构建为一个偏好建模和对齐问题。

核心构成

SciJudgeBench 基准数据集

数据规模：包含 696,758 个经过领域和时间匹配的论文对，源自截至2024年发布的约 2.1M 篇arXiv论文，涉及约 1.4M 篇独特论文。
覆盖领域：涵盖计算机科学、数学、物理学及其他科学领域。
评估设置：包含领域内、时间分布外（未来年份论文）、指标分布外（ICLR同行评审）和领域分布外（bioRxiv生物学论文）四种评估场景。

模型组件

Scientific Judge（科学评判模型）
- 基于论文标题、摘要和发表日期的成对比较进行训练。
- 学习识别哪篇论文具有更高的潜在影响力。
- 功能：既可作为新生论文的评估器，也可作为构思训练的奖励模型。
Scientific Thinker（科学思考者模型）
- 以Scientific Judge作为奖励模型进行训练的科学构思策略模型。
- 功能：给定一篇种子论文，提出具有高潜在影响力的后续研究想法。
- 训练方法：使用基于比较的GRPO进行优化，以进行开放式想法生成。

方法概述（RLCF范式）

基于社区反馈的强化学习包含三个阶段：

构建社区偏好：通过匹配同一领域和发表时期的论文，将引用转化为成对偏好信号。
使用Scientific Judge进行偏好建模：使用GRPO训练一个生成式奖励模型，以判断两篇论文中哪篇更可能获得更强的社区认可。
使用Scientific Thinker进行偏好对齐：以Scientific Judge作为奖励模型，并使用基于比较的GRPO优化策略模型，以生成更高影响力的研究想法。

关键结果

论文表明科学品味可以被学习和迁移：

科学判断能力随数据规模和模型规模扩大而提升。
习得的判断能力能够跨时间、跨领域泛化，并能从引用偏好迁移到同行评审偏好。
Scientific Thinker提升了构思质量，在成对比较中超越了强基线模型。

引用信息

bibtex @misc{tong2026aicanlearnscientifictaste, title={AI Can Learn Scientific Taste}, author={Tong, Jingqi and Li, Mingzhe and Li, Hangcheng and Yang, Yongzhuo and Mou, Yurong and others}, year={2026} }

许可信息

本项目采用MIT许可证。

搜集汇总

数据集介绍

构建方式

在科学文献评估领域，构建高质量的数据集对于训练具备科学品味的模型至关重要。SciJudgeBench的构建过程基于大规模社区反馈信号，从超过210万篇截至2024年发布的arXiv论文中，依据相同研究领域和相近发表时间进行匹配，最终生成了696,758对论文偏好对。这一过程通过将论文引用量转化为成对的偏好信号，确保了数据在时间和学科维度上的对齐，为模型学习科学判断力提供了可靠且结构化的监督信息。

特点

SciJudgeBench作为评估科学品味的大规模基准，其显著特点在于覆盖了计算机科学、数学、物理学及其他科学领域的广泛论文，并包含了约140万篇独特文献。数据集特别设计了四种评估场景，包括领域内测试、时间外分布测试、指标外分布测试以及领域外分布测试，从而全面检验模型在跨时间、跨领域及不同评价标准下的泛化能力。这种多维度的评估框架使得数据集能够深入揭示科学判断的可学习性与可迁移性。

使用方法

使用SciJudgeBench时，研究人员可将其应用于训练生成式奖励模型，例如科学评判模型，该模型通过比较论文标题、摘要和发表日期来预测哪篇论文具有更高潜在影响力。同时，数据集可作为强化学习中的奖励信号，优化策略模型以生成高影响力的后续研究思路。在实际应用中，用户需遵循提供的代码文档，加载预处理后的数据对，并按照指定的训练流程进行模型训练与评估，从而推动人工智能在科学创新与决策支持方面的应用。

背景与挑战

背景概述

在人工智能与科学计量学交叉领域，量化并模拟科研人员的学术鉴赏力——即科学品味，一直是前沿探索的核心议题。SciJudgeBench数据集于2026年由Tong等人构建，依托超过210万篇arXiv预印本论文，旨在通过大规模社区反馈信号，将科学品味的学习形式化为偏好建模与对齐问题。该数据集通过提取69.6万对领域与时间匹配的论文对，为核心研究问题——如何使AI系统具备评估科研创意潜在影响力的能力——提供了实证基础，其构建不仅推动了科学判断模型的训练，也为跨领域、跨时间的学术影响力预测研究开辟了新路径。

当前挑战

SciJudgeBench所应对的领域挑战在于，科学影响力的评估长期依赖主观、滞后的传统指标，如引用次数，难以对新兴研究进行即时、准确的潜力判断。数据构建过程中，需克服多维度匹配的复杂性：从海量论文中精确筛选同领域、同期发表的配对，确保偏好信号的可靠性；同时，处理不同学科范式的异质性，以及时间外推与领域外推下的泛化问题，以验证模型在未知场景中的稳健性。这些挑战共同指向了科学品味量化研究中数据质量与泛化能力的核心瓶颈。

常用场景

经典使用场景

在科学文献评估与预测领域，SciJudgeBench数据集通过构建大规模、跨领域的论文对比较，为研究科学品味提供了关键的数据基础。该数据集最经典的使用场景是训练和评估生成式奖励模型，如Scientific Judge，使其能够基于论文标题、摘要和发表时间，判断哪篇论文在未来可能产生更高的学术影响力。这种场景不仅模拟了科学家对研究潜力的直觉判断，也为自动化论文评估系统提供了可靠的训练和测试平台。

解决学术问题

SciJudgeBench数据集有效解决了科学影响力预测中的若干核心学术问题，包括如何量化科学品味、如何利用社区反馈信号进行监督学习，以及如何实现跨时间、跨领域的泛化能力。通过将引用数据转化为成对偏好信号，该数据集支持了基于强化学习的偏好建模与对齐研究，使得AI系统能够学习并模拟人类科学家的判断力，从而推动科学发现过程的自动化与智能化。

衍生相关工作

围绕SciJudgeBench数据集，已衍生出多项经典研究工作，其中最具代表性的是Reinforcement Learning from Community Feedback（RLCF）训练范式。该范式通过社区反馈信号驱动，将科学品味学习建模为偏好对齐问题，进而催生了Scientific Judge和Scientific Thinker等核心模型。这些工作不仅在科学影响力预测上取得了显著性能提升，还为跨领域泛化、时间外分布评估等研究方向提供了新的基准与启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集