AI-written peer reviews dataset

Name: AI-written peer reviews dataset
Creator: Intel Labs
Published: 2025-02-27 07:04:05
License: 暂无描述

arXiv2025-02-27 更新2025-03-04 收录

下载链接：

http://arxiv.org/abs/2502.19614v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究引入了一个包含788,984个由五种广泛使用的大型语言模型生成的AI撰写同行评审以及相应的人类撰写的同行评审的数据集。该数据集是迄今为止评估AI文本在同行评审中检测性的最大资源，覆盖了两大会AI研究会议（ICLR和NeurIPS）八年来的论文。数据集通过整合现有来源的人类撰写的同行评审和针对同一篇论文使用五种最先进的LLM生成的AI撰写的同行评审而构建。

This study introduces a dataset consisting of 788,984 pairs of AI-generated peer reviews (produced by five widely used large language models) and their corresponding human-written peer reviews. As the largest available resource to date for evaluating the detectability of AI-generated text in peer reviews, this dataset covers papers from eight years of two top-tier AI research conferences: ICLR and NeurIPS. The dataset was constructed by integrating human-written peer reviews from existing sources and AI-generated peer reviews for the same papers using five state-of-the-art LLMs.

提供机构：

Intel Labs

创建时间：

2025-02-27

搜集汇总

数据集介绍

构建方式

本数据集的构建方式独特，它结合了人类编写的同行评审与通过五种最先进的语言模型（GPT-4o、Claude Sonnet 3.5、Gemini 1.5 pro、Qwen 2.5 72b和Llama 3.1 70b）生成的同行评审。这些评审覆盖了两个顶级人工智能研究会议（ICLR和NeurIPS）提交的论文，时间跨度为8年。为了控制内容结构，生成AI评审时包含了会议特定的评审指南和评审模板。数据集还包括一个校准集和一个测试集，用于评估和比较不同的AI文本检测方法。

特点

该数据集的特点在于其规模庞大，包含了788,984个同行评审，其中人类编写的评审与AI生成的评审数量相等。数据集涵盖了两个顶级人工智能研究会议的评审，并且使用五种不同的LLM模型生成了AI评审，使得数据集具有多样性。此外，数据集还包括了不同编辑程度的AI评审，以模拟真实世界中AI在编辑评审中的应用。

使用方法

使用该数据集的方法包括：首先，使用校准集来确定每个评估方法的分类阈值；其次，使用测试集来评估不同方法的实际真阳性率（TPR）和假阳性率（FPR）；最后，使用扩展集来进一步验证方法的检测能力。此外，数据集还包括了一个基于锚点嵌入的新检测方法，该方法通过比较给定评审与为相同论文生成的参考AI评审之间的语义相似度来检测AI生成的评审。

背景与挑战

背景概述

在人工智能（AI）技术迅猛发展的当下，大型语言模型（LLM）在各个领域的应用日益广泛。同行评审作为确保科学研究成果准确性的关键环节，面临着新的挑战。随着LLM的兴起，一些评审员可能会依赖LLM来完成繁琐的论文评审工作，这可能会损害同行评审的公正性和客观性。为了应对这一挑战，Sungduk Yu、Man Luo等研究人员在Intel Labs提出了一个名为AI-written peer reviews dataset的数据集。该数据集包含了从2016年到2024年间，两个主要人工智能研究会议（ICLR和NeurIPS）提交的论文的788,984个AI生成的评审和相应的人类评审。该数据集旨在评估现有AI文本检测算法区分人类和LLM生成评审的能力，并提出了一个新的检测方法，该方法在识别AI生成的评审方面优于现有方法。

当前挑战

该数据集相关的挑战主要包括：1) AI生成的评审在文本特征上与人类评审存在差异，这使得现有的AI文本检测算法难以准确地区分两者；2) 构建过程中，研究人员需要确保AI生成的评审与人类评审在内容和结构上保持一致，以便进行公平的比较；3) 随着LLM技术的不断发展，新的模型和生成策略可能会进一步增加检测AI生成文本的难度。

常用场景

经典使用场景

在科学研究中，同行评审是一个至关重要的环节，它确保了出版研究的完整性。然而，随着大型语言模型（LLMs）的快速发展，一个新兴的风险是，不负责任的审稿人可能会依赖LLMs来完成通常耗时且繁琐的论文评审过程。为了应对这一挑战，AI-written peer reviews dataset应运而生，该数据集包含788,984篇由AI编写的同行评审和相应的人类评审，涵盖了两个主要AI研究会议（ICLR和NeurIPS）提交的8年论文。这个数据集被用于评估现有AI文本检测算法区分人类和不同最先进LLMs编写的同行评审的能力。此外，该数据集还推动了新的检测方法的发展，该方法在识别AI编写的同行评审方面优于现有方法。

衍生相关工作

该数据集衍生了许多相关的经典工作，例如RAID-TD、M4 Dataset、HC3 Dataset和GPT Reddit Dataset等。这些数据集在评估AI文本检测模型的性能方面发挥了重要作用。此外，该数据集还推动了新的检测方法的发展，例如基于语义相似度的检测方法和基于投票的检测方法。这些方法在识别AI生成的文本方面表现出色，为AI文本检测领域的研究提供了新的思路和方法。

数据集最近研究