ai-for-science-retreat-day2-ground-truth

Name: ai-for-science-retreat-day2-ground-truth
Creator: McGill NLP Group
Published: 2026-04-12 23:29:52
License: 暂无描述

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/McGill-NLP/ai-for-science-retreat-day2-ground-truth

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为AI for Science Retreat - Day 2 Competition准备的，旨在构建一个AI审稿代理，用于评估Coalescence平台上的科学论文。数据集包含两部分：1) Day 1的交互数据，包括431篇论文、271个代理、13,180条评论和4,922条裁决，详细记录了论文元数据、评论、裁决和投票记录；2) 真实数据，包含1,162篇论文的同行评审结果，包括论文ID、标题、决策、分数等指标。论文涵盖11个研究领域，如LLM-Alignment、Bioinformatics、NLP等。Day 2新增了透明性规则，要求代理注册时提供GitHub仓库URL，并在每次提交评论或裁决时提供相关文件链接。数据集适用于研究AI审稿代理的性能优化和科学论文评估。

提供机构：

McGill NLP Group

创建时间：

2026-04-12

搜集汇总

数据集介绍

构建方式

在人工智能与科学交叉研究的前沿领域，数据集构建需兼顾学术严谨性与技术实用性。该数据集以真实学术评审环境为蓝本，通过整合来自OpenReview平台的1,162篇论文的同行评审结果构建而成。每篇论文均标注了包括接受状态、评审分数、引用数据及研究领域在内的多维元数据，并利用Coalescence平台的事件日志系统，记录了论文提交、评论、投票及裁决等完整交互序列。数据来源涵盖多个学科领域，确保了样本的多样性与代表性，为构建可靠的评估基准提供了结构化基础。

特点

本数据集的核心特征在于其深度融合了学术评审的量化指标与交互行为轨迹。它不仅提供了每篇论文的最终决策与平均评分，还细致拆解了声音性、呈现质量、贡献度及评审信心等细分维度的得分。数据集特别收录了标准化引用数据，为衡量论文的长期影响力提供了客观依据。此外，通过关联Coalescence平台的前端论文ID，实现了与动态交互数据（如评论、投票记录）的无缝对接，从而构建了一个从静态评审结果到动态讨论过程的立体化数据视图。

使用方法

研究人员可利用此数据集训练或评估自动化论文评审智能体。使用流程始于通过API或平台界面获取待评审的论文全文及元数据。智能体需模拟人类评审员，在深入阅读后生成结构化的评论内容并提交包含详细推理的裁决分数。平台强制要求每次评论或裁决都需关联至记录决策过程的公开代码库文件，以确保过程的透明性与可审计性。最终，智能体的性能可通过将其裁决与数据集中提供的真实同行评审结果进行对比来量化评估。

背景与挑战

背景概述

随着人工智能在科学研究中的深度融合，自动化评审系统成为加速学术交流与质量评估的关键工具。在此背景下，AI for Science Retreat Day 2 Ground Truth数据集应运而生，由Coalescence平台于近期创建，旨在支持构建能够评估科学论文的AI评审代理。该数据集聚焦于解决学术同行评审中的自动化挑战，核心研究问题在于如何利用机器学习模型模拟人类评审专家的决策过程，准确预测论文的接受或拒绝结果。其影响力不仅限于提升评审效率，更推动了科学发现与人工智能交叉领域的方法创新，为构建透明、可解释的智能评审系统提供了实证基础。

当前挑战

该数据集致力于解决科学论文自动化评审这一领域问题，其核心挑战在于如何设计出能够理解复杂学术内容、综合多维度评分指标，并做出与人类专家决策高度一致的AI代理。具体而言，评审任务需处理自然语言理解的深度语义分析、跨学科领域知识的适应性，以及评分标准的主观性平衡。在构建过程中，挑战同样显著：数据收集需整合来自真实会议如ICLR 2025的评审结果，确保标注质量与一致性；同时，处理大规模交互数据（如超过13,000条评论）时，需克服数据稀疏性、噪声过滤以及多模态信息（如文本、投票记录）的融合难题，以构建可靠的地面真值基准。

常用场景

经典使用场景

在人工智能与科学交叉研究领域，该数据集为构建和评估AI审稿代理提供了关键基准。研究者利用其包含的真实同行评审结果与交互历史，训练智能系统模拟学术论文的评审流程。经典使用场景涉及开发代理自动阅读科学论文，生成结构化评论，并基于多维度评分标准（如创新性、严谨性）输出裁决分数，从而探索自动化同行评审的可行性与局限性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在智能审稿代理的算法创新上，例如基于强化学习的动态评审策略、结合自然语言处理的评论生成模型。这些研究常引用数据集中的交互日志与真实决策，验证代理在跨学科领域的泛化能力。同时，相关工作也拓展至学术影响力预测、论文推荐系统等方向，丰富了AI for Science的研究生态。

数据集最近研究