Gen-Review

Name: Gen-Review
Creator: IBM Research, Imperial College London, Paris School of Economics, University of Genoa, University of Liechtenstein, KU Leuven
Published: 2025-10-24 14:54:27
License: 暂无描述

arXiv2025-10-24 更新2025-10-29 收录

下载链接：

https://chatpdf.com/

下载链接

链接失效反馈

官方服务：

资源简介：

Gen-Review是一个包含超过81,000条AI生成评论的数据集，针对2018年至2025年提交给ICLR的论文，每个论文有三个独立的提示：负面、正面和中立。该数据集包括32,000篇论文及其原始人类编写的评论，允许对AI生成内容的同行评审进行全面的评估。Gen-Review旨在促进对AI生成评论中潜在偏见的、质量的、与人类编写评论的匹配性以及AI检测工具的评价的研究。

Gen-Review is a dataset comprising over 81,000 AI-generated peer reviews for papers submitted to ICLR between 2018 and 2025. Each paper is associated with three distinct prompts for generating reviews: negative, positive, and neutral. The dataset also includes 32,000 papers along with their original human-written reviews, enabling comprehensive evaluations of AI-generated peer reviews. Gen-Review aims to facilitate research on evaluating potential biases, quality, alignment with human-written reviews, and the efficacy of AI detection tools for AI-generated peer reviews.

提供机构：

IBM Research, Imperial College London, Paris School of Economics, University of Genoa, University of Liechtenstein, KU Leuven

创建时间：

2025-10-24

搜集汇总

数据集介绍

构建方式

在人工智能技术日益渗透学术评审领域的背景下，Gen-Review数据集的构建采用了系统化的工作流程。研究团队通过OpenReview API收集了2018至2025年间ICLR会议的全部32,652篇投稿论文及其124,615篇人工评审意见，作为基础数据。随后基于ChatPDF工具，采用三种独立提示策略——积极、消极和中性，为每篇论文生成对应的机器评审文本，最终形成包含81,850条LLM生成评论的大规模数据集。

特点

该数据集的核心特征体现在其规模性与结构化设计。作为当前最大的LLM生成评审数据集，它完整覆盖了八届顶级会议的全部投稿范围，包括接受、拒绝及撤回的论文。数据集通过三种情感倾向的提示生成平行文本，为分析LLM评审偏差提供了多维视角。其与原始人工评审的精确关联机制，更支持开展质量对比、偏见检测等深度研究。

使用方法

研究者可通过数据集标识符实现LLM生成评论与对应论文、人工评审的精准映射。该资源适用于三大研究场景：通过对比不同提示生成的文本分析LLM内在偏见；利用配对的人工评审评估机器生成内容的质量对齐程度；构建检测模型时作为已知来源的基准数据。数据集采用标准化存储格式，确保下游任务的可复现性。

背景与挑战

背景概述

随着大型语言模型在科学领域的广泛应用，其对学术同行评审的影响逐渐成为研究焦点。Gen-Review数据集由Luca Demetrio等学者于2025年创建，旨在系统评估LLM生成评审的质量与偏差。该数据集基于2018至2025年国际学习表征大会的全部投稿论文，通过ChatPDF工具生成8.1万份涵盖中立、积极与消极倾向的模拟评审，并与12.4万份人类评审形成对照。其核心研究在于量化LLM在学术评审中的表现，为维护科学过程的完整性与效率提供实证基础。

当前挑战

该数据集致力于解决LLM生成学术评审的可靠性问题，面临领域性挑战包括：模型固有偏见导致评分系统性偏高，指令遵循不彻底引发的格式偏差，以及生成内容与人类评审的决策对齐困难。构建过程中需克服技术障碍：大规模PDF处理受限于文件体积，API调用产生的文本截断需反复校验，同时需平衡模拟场景的真实性与数据生成的可行性，确保数据质量满足研究需求。

常用场景

经典使用场景

在人工智能与学术出版交叉研究领域，Gen-Review数据集为探索大语言模型在同行评审中的行为模式提供了核心实验平台。该数据集通过构建包含8.1万篇LLM生成评审的大规模语料库，支持研究者系统分析不同提示策略下模型输出的评分分布特征，成为评估AI辅助评审可靠性的基准工具。其经典应用场景涵盖从量化分析LLM评审倾向性到构建自动化检测系统的完整研究链条，为理解生成式AI对学术生态的影响提供了数据基石。

解决学术问题

该数据集有效解决了生成式AI时代下学术诚信监管的关键问题。通过提供标注清晰的LLM生成评审与人类评审对照样本，支持开发高精度AI文本检测算法，如Binoculars工具在数据集上实现接近100%的召回率。同时揭示了LLM在评审过程中存在的系统性正向偏见，其“中性提示”生成的评审中超过99%给出接受建议，这一发现为制定AI辅助评审规范提供了实证依据，推动建立更透明的学术监督机制。

衍生相关工作

基于Gen-Review衍生的研究呈现出多维度拓展态势。在检测技术方面，Kumar等人开发了专门针对AI生成评审的识别模型，在数据集子集上表现出优异性能。Zhang等人则利用数据集开展配对比较研究，分析LLM与人类评审的一致性规律。伦理研究领域，Vasu团队通过数据集揭示了LLM评审中潜在的隐性偏见，而Thakkar等人探索了LLM反馈对提升评审质量的作用。这些工作共同构建起AI辅助学术评审的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集