Peer Reviews Augmented with Aspects

Name: Peer Reviews Augmented with Aspects
Creator: 德国达姆施塔特技术大学Ubiquitous Knowledge Processing Lab (UKP Lab) 计算机科学与黑森州人工智能中心 (hessian.AI)
Published: 2025-04-09 22:14:42
License: 暂无描述

arXiv2025-04-09 更新2025-04-11 收录

下载链接：

https://anonymous.4open.science/r/aspects-in-reviews-737E/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由达姆施塔特技术大学的UKP Lab创建，包含1094条同行评审评论，这些评论来自于不同时期的人工智能和机器学习会议。数据集通过使用OpenAI GPT-4模型从评审中识别出细粒度的评审方面，建立了一个包含16个广泛类别的方面分类体系，用于研究社区级别的评审分析和辅助评审写作。

This dataset was created by the UKP Lab at Technische Universität Darmstadt, containing 1,094 peer review comments collected from artificial intelligence and machine learning conferences across various eras. By leveraging the OpenAI GPT-4 model to identify fine-grained review aspects from these comments, the dataset establishes an aspect classification system encompassing 16 broad categories, which is designed for community-level review analysis and to support peer review writing.

提供机构：

德国达姆施塔特技术大学Ubiquitous Knowledge Processing Lab (UKP Lab) 计算机科学与黑森州人工智能中心 (hessian.AI)

创建时间：

2025-04-09

搜集汇总

数据集介绍

构建方式

在学术出版领域，同行评审的质量和效率日益成为关注焦点。为应对这一挑战，本研究采用了一种自下而上的数据驱动方法构建了Peer Reviews Augmented with Aspects数据集。研究团队首先从NLP和机器学习领域的顶级会议中筛选了350篇论文的1094篇评审意见，通过OpenAI GPT-4o模型对评审句子进行无监督的方面识别。随后通过后处理流程对初始识别结果进行标准化处理，包括高频方面词提取、相关术语归并以及人工校验，最终构建了一个包含16个粗粒度类别和4810个细粒度方面的多层级分类体系。

特点

该数据集最显著的特点是建立了首个基于实际评审文本的细粒度方面分类体系。与以往基于评审表格构建的粗粒度方面不同，本研究通过大语言模型从真实评审中挖掘出包括方法论、实验结果、数据任务等16个粗粒度类别，每个类别下又包含多个细粒度方面。数据集特别区分了论文无关方面（如创新性、清晰度）和论文相关方面（如消融分析、基准测试），为研究社区提供了更全面的评审维度分析工具。此外，数据集还保留了原始的大语言模型标注结果，支持不同粒度层面的研究需求。

使用方法

该数据集支持两个核心任务：给定论文预测应关注的评审方面（PAP）和从评审文本识别实际涉及的方面（RAP）。研究团队提供了基于词袋模型+随机森林、RoBERTa和GPT-4o的基准实验结果。数据集还可用于社区层面的评审分析，如比较不同投稿方向的评审重点差异。特别值得注意的是，细粒度方面集为检测大语言模型生成的评审提供了新维度，通过分析评审文本的方面覆盖特异性，能够有效区分人工撰写和机器生成的评审内容。使用时需注意数据主要来自已接收论文的最终版本评审，可能存在一定的接受偏差。

背景与挑战

背景概述

Peer Reviews Augmented with Aspects数据集由达姆施塔特工业大学UKP实验室的LU Sheng、Ilia Kuznetsov和Iryna Gurevych团队于2025年构建，旨在解决学术同行评审中的标准化与计算支持问题。该数据集通过数据驱动方法从大量同行评审中提取细粒度评价维度（aspect），建立了包含16个主要类别的多层级分类体系。作为首个采用自底向上方式构建的评审维度数据集，其创新性体现在将大型语言模型（GPT-4o）应用于7,000余篇NLP/ML会议论文的1,094条评审分析，推动了评审过程标准化、质量控制和自然语言处理技术在学术评审中的应用。该资源为研究学术社区评价标准分布、自动评审生成检测等任务提供了新范式。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决同行评审中评价维度缺乏形式化定义的难题——现有研究多从评审表格粗粒度推导维度，难以支持细粒度NLP应用；在构建过程中，需克服语义多义性（如'改进'指方法优化或论文修改建议）、LLM标注一致性（不同提示词导致20%-30%的标注差异）以及数据偏差（数据集中69%为录用论文）等技术障碍。此外，构建细粒度分类体系时需平衡维度特异性与实用性，如'方法论'等广义类别的边界界定问题，这些挑战通过半自动标注流程和人工验证得以部分缓解。

常用场景

经典使用场景

在学术出版领域，同行评审的质量和效率一直是核心挑战。'Peer Reviews Augmented with Aspects'数据集通过结构化评审中的评估维度（如创新性、方法论等），为标准化评审流程提供了数据基础。该数据集最典型的应用场景包括训练模型自动识别评审文本中的评估维度，辅助程序委员会分析不同投稿赛道的评审焦点差异，或检测生成式AI撰写的通用化评审。其细粒度的维度体系支持对评审质量的多维度量化分析，例如通过计算评审覆盖维度的特异性来评估评审深度。

衍生相关工作

该数据集催生了多个标志性研究方向：Sun等人(2024a)开发的ReviewFlow系统利用维度提示提升评审全面性；Wang等人(2020)基于维度知识图谱构建自动评审生成框架；Du等人(2024)则通过维度相似性分析实现90%准确率的AI评审检测。在理论层面，Kuznetsov等人(2024)提出的评审质量评估框架和Lin等人(2023b)的自动化评审技术路线图，均建立在该数据集揭示的维度规律基础之上。

数据集最近研究