DeepReview-13K

Name: DeepReview-13K
Creator: 浙江大学工程学院，西湖大学
Published: 2025-03-11 23:59:43
License: 暂无描述

arXiv2025-03-11 更新2025-03-13 收录

下载链接：

http://ai-researcher.net

下载链接

链接失效反馈

官方服务：

资源简介：

DeepReview-13K是由浙江大学工程学院和西湖大学合作创建的一个结构化评审数据集。该数据集包含了原始研究论文、结构化的中间评审步骤和最终评估，旨在解决自动化评审系统中存在的缺乏细粒度专家评估过程的问题。DeepReview-13K数据集包含了13378条有效样本，是从两个ICLR会议周期（2024-2025）的18976篇论文投稿中收集并经过严格质量控制的。

DeepReview-13K is a structured review dataset co-created by the College of Engineering of Zhejiang University and Westlake University. This dataset encompasses original research papers, structured intermediate review procedures and final evaluations, aiming to address the critical gap where current automated review systems lack fine-grained expert evaluation processes. The DeepReview-13K dataset consists of 13,378 valid samples, which were collected from 18,976 paper submissions across two ICLR conference cycles (2024–2025) and subjected to strict quality control.

提供机构：

浙江大学工程学院，西湖大学

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

DeepReview-13K数据集的构建是通过从OpenReview平台和arXiv存储库中收集原始数据，包括两个ICLR会议周期（2024-2025）中的18,976篇论文提交。这些论文被转换为可解析的Markdown格式，并使用MinerU工具进行解析。对于每篇论文，我们构建了一个包含三个关键组成部分的审查集R：（1）文本评估（优点、缺点和问题），（2）反驳阶段的交互式讨论，以及（3）标准化评分，包括总体评分（∈ [1, 10]）和对论文完整性的细粒度评估（∈ [1, 4]）。此外，我们还收集了元审查文本和最终评分，包括接受决定。最终，DeepReview-13K数据集由13,378个有效样本组成，作为构建审查推理链的基础。

特点

DeepReview-13K数据集的特点在于其结构化的中间审查步骤和最终评估。它包含原始研究论文、结构化的中间审查步骤和最终评估，使得模型能够学习系统性的审查推理链。此外，数据集还包含细粒度的审查推理链，这有助于模型学习更深入、更全面的审查推理过程。

使用方法

DeepReview-13K数据集可用于训练和评估大型语言模型（LLM）在论文审查任务上的性能。研究人员可以使用该数据集来训练自己的模型，或者评估现有模型的性能。此外，数据集还可以用于研究和开发新的审查框架和方法。

背景与挑战

背景概述

在科学研究的评估领域，同行评审是确保研究成果质量的关键环节。随着研究提交量的增加，大型语言模型（LLMs）在自动化论文评审中的应用日益增多。然而，现有的基于LLM的评审系统面临着一些重大挑战，包括领域专业知识有限、推理过程中可能出现幻觉、缺乏结构化评估等。为了解决这些问题，Zhejiang University School of Engineering和Westlake University的研究人员Minjun Zhu等人提出了DeepReview，一个多阶段框架，旨在通过结合结构化分析、文献检索和基于证据的论证来模拟专家评审过程。他们使用了名为DeepReview-13K的精选数据集，该数据集包含结构化注释，用于训练DeepReviewer-14B模型，该模型在 fewer tokens 的情况下优于CycleReviewer-70B。DeepReviewer-14B在最佳模式下，在评估中对GPT-o1和DeepSeek-R1的胜率分别为88.21%和80.20%，为基于LLM的论文评审设定了新的基准。

当前挑战

DeepReview-13K数据集和相关模型面临着一些挑战。首先，现有的基于LLM的评审系统难以全面识别提交的缺陷，导致反馈肤浅。其次，这些系统缺乏基于证据的论证，无法提供清晰、可操作的改进建议。此外，它们容易受到提示工程的影响，导致评估结果不准确。为了解决这些挑战，DeepReview框架采用了结构化的多阶段评审流程，包括新颖性评估、多维评价标准和可靠性验证。DeepReview-13K数据集通过整合检索和排名、自我验证和自我反思，确保了LLM生成建议的合理性和稳健性。DeepReviewer-14B模型提供了三种推理模式：快速、标准和最佳，使用户能够在效率和响应质量之间进行权衡。然而，DeepReview框架仍然依赖于合成数据集，这可能无法完全捕捉真实人类论文评审的复杂性和细微差别。此外，DeepReviewer的“最佳”模式可能需要大量的计算资源。尽管DeepReviewer展示了在对抗性攻击下的鲁棒性，但完全的免疫性尚未实现，这表明需要进一步研究以提高其安全性。

常用场景

经典使用场景

DeepReview-13K数据集主要用于训练和评估大语言模型(LLM)在论文评审领域的表现，特别是通过模拟专家评审过程来提高LLM的论文评审能力。该数据集包含结构化的注释，可以用于训练DeepReviewer模型，该模型在论文评审任务中表现出色，能够提供比现有LLM模型更深入、更可靠的评审意见。DeepReviewer模型具有三种推理模式：快速模式、标准模式和最佳模式，用户可以根据需要平衡效率和响应质量。此外，DeepReview-Bench基准测试集用于评估LLM在论文评审任务中的表现，包括评分预测、质量排名和论文选择等定量方面，以及通过LLM评估的定性评审生成。DeepReview-13K数据集和DeepReview-Bench基准测试集的发布，为LLM在论文评审领域的应用提供了新的基准和评估工具。

衍生相关工作

DeepReview-13K数据集衍生了DeepReviewer模型，该模型在论文评审任务中表现出色，并具有三种推理模式：快速模式、标准模式和最佳模式，用户可以根据需要平衡效率和响应质量。DeepReview框架的提出，为LLM在论文评审领域的应用提供了新的思路和方法，并为相关研究提供了新的基准和评估工具。此外，DeepReview框架的发布也促进了LLM在论文评审领域的进一步研究和应用，为相关研究提供了新的方向和思路。

数据集最近研究