LAZYREVIEW

Name: LAZYREVIEW
Creator: 德国达姆施塔特技术大学Ubiquitous Knowledge Processing Lab、Department of Computer Science and Hessian Center for AI (hessian.AI)
Published: 2025-04-15 18:07:33
License: 暂无描述

arXiv2025-04-15 更新2025-04-17 收录

下载链接：

https://github.com/UKPLab/arxiv2025-lazy-review

下载链接

链接失效反馈

官方服务：

资源简介：

LAZYREVIEW数据集是由德国达姆施塔特技术大学的研究团队创建的，包含500个经过专家标注的同行评审句子，这些句子被标记为18个不同的lazy thinking类别。该数据集是基于ARR 2022和EMNLP 2020指南构建的，旨在支持自动检测同行评审中的lazy thinking现象的研究。数据集涵盖了多个会议和期刊的评审报告，通过迭代标注和指南改进的过程，确保了标注质量。

The LAZYREVIEW dataset was created by a research team from the Technical University of Darmstadt, Germany. It contains 500 expert-annotated peer-review sentences labeled with 18 distinct lazy thinking categories. This dataset was constructed based on the guidelines of ARR 2022 and EMNLP 2020, and is intended to support research on the automatic detection of lazy thinking in peer reviews. The dataset covers review reports from multiple conferences and journals, and its annotation quality is ensured through an iterative process of annotation and guideline refinement.

提供机构：

德国达姆施塔特技术大学Ubiquitous Knowledge Processing Lab、Department of Computer Science and Hessian Center for AI (hessian.AI)

创建时间：

2025-04-15

原始信息汇总

LazyReview数据集概述

数据集简介

名称: LazyReview
目的: 用于检测NLP同行评审中的"懒惰思维"现象
特点: 包含细粒度标注的同行评审句子，支持开发自动化检测工具
应用: 可用于改进同行评审过程，培训初级评审人员

数据集内容

数据文件结构:

├── instruction_tuned │ ├── coarse_grained │ │ ├── lazy_thinking_coarse_grained_test.jsonl │ │ ├── lazy_thinking_coarse_grained_test_with_eg.jsonl │ │ ├── lazy_thinking_coarse_grained_train.jsonl │ │ └── lazy_thinking_coarse_grained_train_with_eg.jsonl │ ├── fine_grained │ │ ├── lazy_thinking_fine_grained_test.jsonl │ │ ├── lazy_thinking_fine_grained_test_with_eg.jsonl │ │ ├── lazy_thinking_fine_grained_train.jsonl │ │ └── lazy_thinking_fine_grained_train_with_eg.jsonl └── zero_shot ├── Round2_data.tsv ├── Round1_data.tsv └── Round3_data.tsv

实验支持

支持的模型家族: LLaMa, Gemma, Qwen, Yi, Mistral, SciTulu
实验类型:
- 零样本实验
- 指令微调实验

引用信息

bibtex @misc{purkayastha2025lazyreviewdatasetuncoveringlazy, title={LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews}, author={Sukannya Purkayastha and Zhuang Li and Anne Lauscher and Lizhen Qu and Iryna Gurevych}, year={2025}, eprint={2504.11042}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.11042}, }

联系方式

联系人: Sukannya Purkayastha
邮箱: sukannya.purkayastha@tu-darmstadt.de
机构: UKP Lab, TU Darmstadt

搜集汇总

数据集介绍

构建方式

LAZYREVIEW数据集的构建过程分为多个阶段，首先从NLPEER数据集中筛选出ARR-22的684篇评审报告，共计11,245个句子。随后利用GPT-4从'弱点总结'部分提取可能涉及懒惰思维的1,776个评审片段。经过三轮专家标注迭代，通过逐步优化标注指南并引入正例样本，最终形成包含500个专家标注片段和1,276个模型标注片段的数据集。标注过程中采用Cohen's κ系数衡量标注者一致性，最终达到0.48的显著一致性水平。

使用方法

LAZYREVIEW支持两种主要应用范式：细粒度分类(识别具体懒惰思维类型)和粗粒度分类(判断是否包含懒惰思维)。研究证明基于指令微调的LLM在该任务上可获得10-20个百分点的性能提升。数据集还可用于改进评审质量，实验表明使用懒惰思维标注重写的评审在'可操作性'(提升85%)和'论证充分性'(提升75%)等维度显著优于原始评审。使用时需注意数据划分，建议采用3折交叉验证评估模型性能。

背景与挑战

背景概述

LAZYREVIEW数据集由Technical University of Darmstadt、Royal Melbourne Institute of Technology、University of Hamburg和Monash University的研究团队于2025年联合发布，旨在解决自然语言处理（NLP）领域同行评审中普遍存在的“懒惰思维”问题。该数据集包含500条专家标注和1276条模型标注的评审片段，涵盖18种细粒度懒惰思维类别。其构建基于ACL Rolling Review（ARR）和EMNLP的评审指南，通过三轮迭代标注优化标注规范。该数据集首次为自动化检测评审中的启发式偏见提供了真实数据支持，并通过实验证明基于指令微调的大型语言模型（LLMs）能显著提升检测性能10-20个百分点。LAZYREVIEW的发布推动了学术评审质量的量化研究，对改善NLP领域的同行评审实践具有重要意义。

当前挑战

LAZYREVIEW面临的挑战主要体现在两方面：领域问题层面，需解决同行评审中因认知负荷导致的浅层批判问题，如缺乏证据支持的“结果不新颖”等14类启发式偏见，这些偏见占作者投诉问题的24.3%；数据构建层面，存在评审片段主观性强导致的标注分歧（初始Cohen's κ仅0.31）、类别边界模糊（如“语言错误”与“写作风格”的区分），以及长尾分布问题（“额外实验”类别占比最高）。此外，模型检测时面临零样本场景下LLMs识别困难、语义相近类别混淆（如“不意外”与“不新颖”），以及需平衡严格字符串匹配与宽松语义评估间的度量差异等关键技术挑战。

常用场景

经典使用场景

LAZYREVIEW数据集在自然语言处理（NLP）领域中被广泛应用于检测同行评审中的懒惰思维现象。通过标注评审句子中的懒惰思维类别，该数据集为研究人员提供了丰富的语料库，用于训练和评估自动化检测工具。例如，研究人员可以利用该数据集分析评审报告中常见的懒惰思维模式，如“结果不够新颖”或“方法过于简单”，从而开发出更精准的算法来识别这些低质量评审行为。

解决学术问题

LAZYREVIEW数据集解决了NLP领域中同行评审质量控制的难题。通过提供细粒度的懒惰思维标注，该数据集帮助研究人员识别和量化评审中的低效行为，从而推动更公平、更科学的评审流程。其意义在于为自动化检测工具的开发提供了数据支持，显著提升了大型语言模型（LLM）在零样本和指令微调场景下的性能，为改进学术评审质量提供了实际解决方案。

实际应用

在实际应用中，LAZYREVIEW数据集可用于培训初级评审员，帮助他们识别和避免懒惰思维。此外，学术会议和期刊可以利用该数据集开发的工具自动筛查评审报告，标记潜在的懒惰思维实例，从而提升评审的整体质量。例如，ACL Rolling Review（ARR）等平台可以集成这些工具，为作者提供更全面、更具建设性的反馈。

数据集最近研究