OpenReview Paper Review Dataset
收藏arXiv2025-02-24 更新2025-02-26 收录
下载链接:
https://figshare.com/s/d5adf26c802527dd0f62
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个包含676篇OpenReview论文及其评审数据的数据集。该数据集来源于2021至2024年ICLR会议的论文评审,通过OpenReview平台收集。数据集包含了论文的摘要、优点、缺点以及最终评审意见。研究通过对8种大型语言模型(LLM)的评审能力进行评估,比较了LLM与人类专家在识别论文优缺点方面的的一致性。
This study constructs a dataset consisting of 676 OpenReview papers and their corresponding peer review data. The dataset is collected via the OpenReview platform, sourced from the peer review records of papers submitted to the ICLR conferences held between 2021 and 2024. It includes the abstracts, strengths, weaknesses, and final review comments of these papers. This work evaluates the review capabilities of 8 large language models (LLMs), and compares the consistency between LLMs and human experts in identifying the strengths and weaknesses of academic papers.
提供机构:
韩国科学技术院(KAIST), 华中科技大学, LG AI Research, 芝加哥大学伊利诺伊分校(University of Illinois Chicago)
创建时间:
2025-02-24
搜集汇总
数据集介绍

构建方式
OpenReview Paper Review Dataset是通过从OpenReview平台收集ICLR会议(2021年至2024年)的676篇论文及其评审数据构建而成的。研究人员从元评审中提取了论文的优点和缺点,并结合来自非元评审的详细评论,使这些优点和缺点自成一体。为了系统地分析这些优点和缺点,他们开发了一个编码方案,用于对优点和缺点的目标和方面进行标注。然后,他们使用LLM驱动的自动标注工具对目标和方面进行自动标注,并与人工标注的结果进行了比较。最后,他们评估了8个LLM的论文评审能力,将LLM识别的优点和缺点与专家生成的优点和缺点进行了比较。
特点
OpenReview Paper Review Dataset的特点在于其包含68篇论文、专家评审、从评审中自动标注的目标和方面、8个LLM生成的评审以及从LLM中标注的目标和方面。该数据集提供了LLM在论文评审中的优缺点信息,有助于改进LLM的性能并增强其在协助评审过程中的潜力。此外,数据集的构建还采用了自动标注工具,提高了标注效率和一致性。
使用方法
OpenReview Paper Review Dataset的使用方法包括以下步骤:首先,使用元评审和评论数据提取论文的优点和缺点,然后使用自动标注工具对优点和缺点的目标和方面进行标注。接着,使用LLM生成论文评审,并使用相同的自动标注工具对LLM生成的优点和缺点进行标注。最后,比较专家评审和LLM评审的目标和方面,以评估LLM的论文评审能力。该数据集可用于研究和改进LLM在论文评审中的性能,并促进人机协作在论文评审中的应用。
背景与挑战
背景概述
OpenReview Paper Review Dataset 是由韩国科学技术院(KAIST)的研究团队开发的一个数据集,旨在评估大型语言模型(LLM)在论文评审方面的能力。该数据集包含来自 OpenReview 平台的 676 篇论文及其评审数据,这些论文是在 2021 年至 2024 年期间提交给 ICLR 会议的。该数据集的创建旨在解决同行评审系统面临的挑战,包括评审员短缺、工作量增加以及大型语言模型在生成评审意见方面的局限性。通过对 LLM 和专家评审意见的对比分析,该数据集揭示了 LLM 在评审论文方面的不足之处,例如缺乏平衡的视角、在批评时显著忽视新颖性评估以及产生不准确的接受决定等。这些发现对于改进 LLM 的推理能力和提升其在学术评审中的潜在作用具有重要意义。
当前挑战
OpenReview Paper Review Dataset 相关的研究面临着一些挑战。首先,大型语言模型在生成论文评审意见时往往缺乏平衡的视角,例如过分关注技术有效性而忽视新颖性评估。其次,构建数据集过程中,如何准确识别论文的强项和弱项是一个挑战,需要从元评审和评论中提取关键信息。此外,由于需要从大量评审数据中提取信息,自动标注工具的开发也是一个挑战。最后,如何确保自动标注工具与人工标注结果的一致性和准确性,以及如何利用该数据集改进 LLM 的推理能力,也是需要进一步研究的问题。
常用场景
经典使用场景
OpenReview Paper Review Dataset主要被用于评估大型语言模型(LLMs)在论文评审任务中的能力。通过对LLMs生成的评审与专家评审进行比较,该数据集揭示了LLMs在论文评审中的优势和局限性。具体而言,该数据集被用于分析LLMs在识别论文的优点和缺点方面的表现,以及它们在做出最终接受决策时的准确性。此外,该数据集还被用于开发自动标注工具,以便自动标注评审中的优点和缺点,从而提高LLMs的评审能力。
衍生相关工作
OpenReview Paper Review Dataset衍生了多个相关的工作。例如,基于该数据集的研究揭示了LLMs在论文评审中的优势和局限性,为LLMs的设计和训练提供了有价值的见解。此外,该数据集还被用于开发自动标注工具,以便自动标注评审中的优点和缺点,从而提高LLMs的评审能力。此外,该数据集还被用于构建评估LLMs评审能力的自动评估流程,以便在LLMs快速发展的背景下对其进行可扩展的评估。
数据集最近研究
最新研究方向
OpenReview Paper Review Dataset的最新研究方向是评估大型语言模型(LLMs)在学术论文评审方面的能力。该研究通过构建一个包含676篇OpenReview论文的数据集,并使用自动评估流程将这些LLMs的评审结果与专家评审结果进行比较,来分析LLMs在识别论文优缺点方面的能力。研究结果表明,LLMs在评审中缺乏平衡的视角,在批评时显著忽略了新颖性的评估,并且生成的论文接受决策不准确。这项工作为提高LLMs的推理能力提供了宝贵的见解,并强调了在论文评审中继续评估LLMs能力的必要性。
相关研究论文
- 1Automatically Evaluating the Paper Reviewing Capability of Large Language Models韩国科学技术院(KAIST), 华中科技大学, LG AI Research, 芝加哥大学伊利诺伊分校(University of Illinois Chicago) · 2025年
以上内容由遇见数据集搜集并总结生成



