Re2

Name: Re2
Creator: 浙江大学
Published: 2025-05-13 00:02:52
License: 暂无描述

arXiv2025-05-13 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.07920v1

下载链接

链接失效反馈

官方服务：

资源简介：

Re2数据集是一个专为全面学术同行评审而构建的真实世界数据集，旨在支持语言模型在评审和反驳方面的训练和评估。该数据集包含来自OpenReview的24个会议和21个工作坊的19,926篇初始论文提交、70,668条评审评论和53,818条反驳讨论。数据集采用多轮对话范式，支持传统静态评审任务和动态交互式大型语言模型助手，为作者提供更实用的指导，帮助他们完善稿件，并缓解日益增长的评审负担。

The Re2 dataset is a real-world dataset constructed for comprehensive academic peer review, aiming to support the training and evaluation of language models in review and rebuttal tasks. It contains 19,926 initial paper submissions, 70,668 review comments and 53,818 rebuttal discussions from 24 conferences and 21 workshops on OpenReview. Adopting a multi-turn dialogue paradigm, the dataset supports both traditional static review tasks and dynamic interactive large language model assistants, providing more practical guidance for authors to refine their manuscripts and alleviating the increasingly heavy peer review workload.

提供机构：

浙江大学

创建时间：

2025-05-13

搜集汇总

数据集介绍

构建方式

在学术评审领域，数据集的构建质量直接影响着后续研究的可靠性和有效性。Re2数据集通过OpenReview官方API自动爬取了2017至2025年间24个会议和21个研讨会的公开论文及完整评审记录，涵盖19,926篇初始投稿、70,668条评审意见和53,818条反驳讨论。为确保数据一致性，研究团队基于会议截稿日期从论文修订历史中精确提取初始投稿版本，并采用商业工具Doc2X将PDF格式论文转换为纯文本。针对多源异构的评审数据，团队为每个会议-年份组合定制了内容提取逻辑，实现了全流程评审内容的标准化处理。

特点

作为目前规模最大的真实世界学术评审数据集，Re2具有三个显著特征：首先，其严格确保所有论文均为初始投稿版本，消除了修订版本带来的数据不一致风险；其次，数据集覆盖OpenReview平台上45个学术会议的完整评审阶段，包括投稿、评审、评分、反驳、讨论等全流程数据；最后，创新性地将反驳讨论阶段构建为多轮对话范式，支持动态交互式语言模型的训练。统计显示，数据集包含的论文平均长度在6,000-16,000词之间，评审意见集中在300-1,100词，其中ICLR和NeurIPS会议的论文占比最高。

使用方法

该数据集支持四类核心任务的应用：在录用预测任务中，可基于论文内容预测其最终录用结果；在评分预测任务中，可训练模型预测论文可能获得的详细评分；在评审生成任务中，能模拟人类评审者自动生成评审意见；在反驳对话任务中，支持构建多轮交互式讨论场景。实验表明，经Re2数据集微调的LLaMA-3.1-8B模型在BLEU和ROUGE-L指标上分别提升64.5%和10%，其生成的评审意见与真实评审在语义嵌入空间的相似度达到0.73。使用时应将数据集划分为训练集和测试集，建议采用LoRA等高效微调方法，并配合BLEU、ROUGE等指标进行多维度评估。

背景与挑战

背景概述

Re2数据集由浙江大学团队于2025年提出，是当前规模最大的学术同行评审与多轮反驳讨论数据集。该数据集针对人工智能领域日益增长的论文投稿量与评审压力问题，旨在为基于大语言模型的自动化评审系统提供高质量训练数据。数据集包含来自OpenReview平台上24个会议和21个工作坊的19,926篇初始投稿、70,668条评审意见以及53,818条反驳讨论，覆盖2017至2025年间的完整评审流程。其创新性体现在首次保证了论文内容与评审版本的严格一致性，并将反驳阶段构建为结构化多轮对话范式，对提升学术论文预提交自评估能力和缓解同行评审压力具有重要价值。

当前挑战

该数据集主要解决三大核心挑战：在领域问题层面，传统评审数据集存在数据多样性不足（如仅包含ICLR会议数据）、版本不一致（使用修订版而非初始投稿）以及缺乏反驳阶段支持等问题；在构建过程中，需克服跨会议评审数据格式异构性（需为45个学术会议定制数据提取逻辑）、初始投稿版本验证（基于提交截止日期筛选版本）以及多轮对话结构化（合并作者连续回复并处理全局回应）等技术难题。此外，如何保持反驳讨论的逻辑连贯性，以及处理作者提醒类无效回复，都是构建高质量多轮对话数据的关键挑战。

常用场景

经典使用场景

在人工智能与计算机科学领域，同行评审是确保学术质量的核心机制。Re2数据集通过整合来自24个会议和21个工作坊的初始投稿、审稿意见及多轮反驳讨论，为研究者提供了全面模拟真实审稿流程的基础设施。其最典型的应用场景包括训练语言模型自动生成审稿意见，以及构建作者-审稿人动态对话系统。数据集将反驳阶段构建为结构化多轮对话范式，使得模型能够学习如何基于论文内容进行连贯的学术辩论，这在ICLR等顶会的自动化审稿系统测试中展现出显著效果。

衍生相关工作

Re2数据集催生了一系列重要研究：DeepReviewer-14B利用其多模态审稿数据开发了包含文献检索的增强型评审框架；CycleReviewer-8B通过该数据集的对话序列实现了论文自动迭代优化；而LLaMA-OpenReviewer项目则基于70,668条审稿意见微调出专业领域评审模型。这些衍生工作不仅推进了自动化评审技术的发展，更形成了从论文撰写到质量评估的完整研究闭环，相关成果已在Nature Machine Intelligence等期刊形成专题讨论。

数据集最近研究