LazyReview

github2025-04-16 更新2025-04-26 收录

下载链接：

https://github.com/UKPLab/arxiv2025-lazy-review

下载链接

链接失效反馈

官方服务：

资源简介：

LazyReview是一个用于揭示NLP同行评审中懒惰思维的数据集，包含带有细粒度懒惰思维类别标注的同行评审句子。该数据集旨在支持开发检测工具，以提高同行评审过程的质量。分析表明，大型语言模型（LLMs）在零样本设置下难以检测这些实例，但在我们的数据集上进行基于指令的微调后，性能显著提高了10-20个百分点，突出了高质量训练数据的重要性。

LazyReview is a dataset developed to reveal lazy thinking in NLP peer reviews, which contains peer review sentences annotated with fine-grained lazy thinking categories. This dataset is intended to support the development of detection tools to enhance the quality of the peer review process. Analyses demonstrate that large language models (LLMs) face challenges in detecting these instances under a zero-shot setting, yet after instruction-based fine-tuning on this dataset, their performance improves notably by 10 to 20 percentage points, underscoring the significance of high-quality training data.

创建时间：

2025-04-08

原始信息汇总

LazyReview数据集概述

数据集基本信息

名称: LazyReview
用途: 用于检测NLP同行评审中的"懒惰思维"现象
类型: 文本数据集（同行评审句子）
标注: 细粒度懒惰思维类别
许可证: Apache-2.0
相关论文: LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews

数据集内容

数据目录结构:

├── instruction_tuned │ ├── coarse_grained │ │ ├── lazy_thinking_coarse_grained_test.jsonl │ │ ├── lazy_thinking_coarse_grained_test_with_eg.jsonl │ │ ├── lazy_thinking_coarse_grained_train.jsonl │ │ └── lazy_thinking_coarse_grained_train_with_eg.jsonl │ ├── fine_grained │ │ ├── lazy_thinking_fine_grained_test.jsonl │ │ ├── lazy_thinking_fine_grained_test_with_eg.jsonl │ │ ├── lazy_thinking_fine_grained_train.jsonl │ │ └── lazy_thinking_fine_grained_train_with_eg.jsonl └── zero_shot ├── Round2_data.tsv ├── Round1_data.tsv └── Round3_data.tsv

实验支持

支持的模型系列:
- LLaMa
- Gemma
- Qwen
- Yi
- Mistral
- SciTulu
实验类型:
- 零样本实验
- 指令调优实验

引用信息

bib @misc{purkayastha2025lazyreviewdatasetuncoveringlazy, title={LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews}, author={Sukannya Purkayastha and Zhuang Li and Anne Lauscher and Lizhen Qu and Iryna Gurevych}, year={2025}, eprint={2504.11042}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.11042}, }

联系方式

联系人: Sukannya Purkayastha
邮箱: sukannya.purkayastha@tu-darmstadt.de
实验室: UKP Lab, TU Darmstadt

搜集汇总

数据集介绍

构建方式

在学术出版质量控制的背景下，LazyReview数据集通过系统标注同行评议中的惰性思维现象而构建。研究团队收集了大量真实场景下的审稿语句，采用细粒度分类体系对各类惰性思维模式进行人工标注，并经过多轮专家验证确保标注一致性。数据集构建过程特别注重反映审稿实践中常见的启发式思维模式，同时通过控制实验验证了数据质量对模型性能提升的关键作用。

特点

作为首个专注于揭示学术评审中惰性思维现象的数据集，LazyReview具备独特的学术价值。数据集包含精细划分的惰性思维类别标注，支持粗粒度和细粒度两种分析维度。特别值得注意的是，实验表明该数据集能显著提升大语言模型10-20个性能点，且修订后的审稿意见更具可操作性。数据集结构设计科学，包含零样本实验和指令微调两个专用模块，支持LLaMa、Gemma等多种主流大模型框架。

使用方法

使用LazyReview数据集需遵循标准化流程，首先通过指定链接获取数据并配置Python 3.10环境。研究者可选择零样本实验或指令微调两种范式：零样本实验支持多轮次数据验证，通过分类脚本实现模型性能测试；指令微调则基于open-instruct框架，需配置LoRA参数进行模型训练。评估阶段提供GPT-3.5接口和精确度计算工具，用户可根据需求选择细粒度或粗粒度评估模式。数据集目录结构清晰，包含训练集、测试集及附带示例的特殊版本，方便不同研究场景调用。

背景与挑战

背景概述

LazyReview数据集由德国达姆施塔特工业大学UKP实验室于2025年发布，旨在解决学术同行评审中普遍存在的'懒惰思维'现象。随着科研论文数量激增，审稿人频繁使用快速启发式方法进行评审，导致评审质量下降。该数据集包含细粒度标注的审稿语句，为开发自动化检测工具提供了首个真实世界基准。研究团队通过实验证明，基于该数据集进行指令微调可使大语言模型的检测性能提升10-20个百分点，显著改善了审稿反馈的全面性和可操作性，对提升学术出版质量具有重要价值。

当前挑战

构建LazyReview数据集面临双重挑战：在领域问题层面，'懒惰思维'作为主观认知偏差，其表现形式复杂多样，需要建立科学的分类体系进行准确界定；在技术实现层面，审稿文本蕴含专业领域知识，标注过程要求标注者具备交叉学科背景。数据收集过程中还需平衡学术敏感性与数据开放性，确保不泄露审稿人隐私的同时维持数据的科研价值。实验表明，现有大语言模型在零样本场景下识别'懒惰思维'的准确率有限，突显了构建专用数据集的必要性。

常用场景

经典使用场景

在自然语言处理领域，LazyReview数据集被广泛用于识别和分析同行评审中的惰性思维现象。通过标注细粒度的惰性思维类别，该数据集为研究人员提供了丰富的语料库，用于训练和评估自动检测工具。特别是在大规模语言模型（LLMs）的零样本设置中，该数据集揭示了模型在识别惰性思维方面的局限性，为后续研究提供了重要参考。

衍生相关工作

围绕LazyReview数据集，研究者们开展了一系列创新工作。其中包括基于LLaMa、Gemma、Qwen等大型语言模型的指令微调研究，以及针对不同粒度惰性思维分类的算法优化。这些工作不仅拓展了数据集的应用范围，还为自然语言处理在学术质量控制领域的应用开辟了新方向。

数据集最近研究