ai-in-peer-review

Hugging Face2026-02-27 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/rounaksaha12/ai-in-peer-review

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过50,000篇科学论文的评审意见，涵盖了多种人机协作级别。数据集分为四个子集：简单子集（easy-subset）、困难子集（hard-subset）、人工评审（human-reviews）和后人工化（post-humanization）。简单子集包含18,340篇由GPT-4o和Llama-3.3-70B-Instruct模型生成的评审意见，每篇论文使用一个提示生成。困难子集包含27,429篇由GPT-5、Gemini-2.5-pro、Gemma-3-27b-it、Qwen-3-30B-thinking和Llama-3.1-70B-instruct模型生成的评审意见，每篇论文使用至少四个不同的提示生成。人工评审子集包含3,499篇完全由人工撰写的评审意见，来源于2020年之前的会议。后人工化子集包含2,000篇通过商业AI人工化工具处理的评审意见，旨在模仿人工写作风格以避免检测。数据集中的每条记录包含会议名称、人机协作级别、论文编号、评审者ID、生成模型、提示ID、评审内容、文件路径和数据集划分等字段。

创建时间：

2026-02-26

原始信息汇总

数据集概述

基本信息

数据集名称: ai-in-peer-review
发布平台: Hugging Face
语言: 英语 (en)
数据文件格式: JSON Lines (.jsonl)
数据总量: 超过 50,000 条科学论文审稿意见

数据子集与文件

数据集包含四个配置（config），对应四个独立的JSONL文件：

easy-subset-consolidated.jsonl (Easy subset)
- 包含 18,340 条AI生成的审稿意见。
- 使用 GPT-4o 和 Llama-3.3-70B-Instruct 模型生成。
- 每个审稿级别（Level）使用一个提示词（Prompt）。
hard-subset-consolidated.jsonl (Hard subset)
- 包含 27,429 条AI生成的审稿意见。
- 基于 158 篇论文的子集生成（来自多个会议）。
- 使用 GPT-5, Gemini-2.5-pro, Gemma-3-27b-it, Qwen-3-30B-thinking 和 Llama-3.1-70B-instruct 模型生成。
- 每个审稿级别至少使用 4 个不同的提示词。
human-reviews.jsonl
- 包含 3,499 条完全由人类撰写的审稿意见。
- 来源：2020年之前的会议，采集自 PeerRead 数据集 (https://huggingface.co/datasets/allenai/peer_read/blob/main/README.md#dataset-description)。
post-humanization.jsonl
- 包含 2,000 条经过“人类化”处理的审稿意见。
- 使用商业AI人类化工具 Undetectable AI (https://undetectable.ai/) 对 AI-BP 和 H-AI 两个级别的审稿意见进行改写，旨在模仿人类写作以规避检测。
- 在源审稿意见的人类干预级别后添加“-humanized”后缀进行标记。

审稿意见的人类-AI协作级别

数据集涵盖了多层次的“人类-AI”协作生成的审稿意见，具体级别如下：

级别标识	级别描述	输入给大语言模型（LLM）的内容
AI-BP	使用基础提示词生成的AI审稿	论文 + 审稿指南
AI-EP	使用详细提示词生成的AI审稿	论文 + 审稿指南 + 会议发布的最佳实践文档
AI-HI	结合人类输入生成的AI审稿	论文 + 审稿指南 + 关键评估要点（项目符号列表）
H-AI	人类撰写、AI润色的审稿	人类撰写的审稿意见
H	完全由人类撰写的审稿	不适用

数据字段说明

每个JSONL文件中的每条记录包含以下字段：

conference: 会议名称及年份。
level: 人类干预的五个级别之一：AI-BP, AI-EP, AI-HI, H-AI, H。人类化审稿的标记方式为源审稿级别加上后缀“-humanized”。
paper_number: 在给定会议名称和年份下的论文唯一标识符。
reviewer_id: 在给定conference和paper_number下的审稿人唯一标识符。
generating_model: 用于生成审稿的模型名称。对于完全人类撰写的审稿（H），此条目为human_review。
prompt_id: 用于生成审稿的提示词唯一ID，格式为[level_id]@[prompt_number]。level_id与级别名称的映射关系：level1: AI-BP, level2: AI-EP, level3: AI-HI, level4: H-AI。对于完全人类撰写的审稿（H），此条目为HUMAN。
review_text: 审稿意见的内容。
filepath: 审稿意见的唯一标识字符串。
split: 数据划分，取值为 train/test/dev。

搜集汇总

数据集介绍

构建方式

在学术同行评审领域，ai-in-peer-review数据集通过多层次的人机协作框架构建而成。该数据集整合了超过五万条科学论文评审意见，涵盖了从基础提示到人工润色的五种干预级别。其中，AI-BP级别仅基于论文与评审指南生成；AI-EP级别进一步融入了会议最佳实践文档；AI-HI级别则引入了人工提供的要点列表作为输入；H-AI级别对人工撰写的评审进行AI优化；而H级别则完全由人工完成。数据来源包括利用GPT-4o、Llama-3.3-70B-Instruct等模型生成的“简易子集”，以及采用GPT-5、Gemini-2.5-pro等先进模型结合多样化提示策略生成的“困难子集”，同时纳入了来自PeerRead数据集的真实人工评审，并通过商用工具对部分AI生成内容进行了人工化处理，以模拟规避检测的文本特征。

特点

该数据集的核心特点在于其系统性地刻画了人机协作的谱系，为研究AI在学术评审中的角色提供了多维度的实验样本。数据不仅标注了生成模型、提示策略和干预级别，还包含了会议名称、论文编号及评审者标识等元数据，确保了样本的可追溯性与可复现性。特别地，数据集通过“简易子集”与“困难子集”的划分，区分了不同复杂度与生成策略下的AI输出；而“人工化”子集则专门探讨了AI文本经过刻意修饰后与人类写作的边界。这种结构设计使得数据集既能用于检测AI生成文本，也能支持对评审质量、偏见及伦理影响的深入分析。

使用方法

使用该数据集时，研究者可依据configs配置灵活加载不同子集，例如easy-subset、hard-subset或post-humanization。每个JSONL文件均包含统一的字段，如review_text、level、generating_model等，便于进行文本分析与特征提取。数据集适用于训练与评估AI文本检测模型、比较不同人机协作级别下的评审质量，或探究人工化处理对文本风格与内容的影响。在具体应用中，可结合split字段划分训练、开发与测试集，以确保实验的严谨性；同时，通过对比AI生成与完全人工撰写的评审，能够深入揭示AI在学术写作中的行为模式与潜在局限。

背景与挑战

背景概述

在人工智能技术迅猛发展的学术背景下，ai-in-peer-review数据集于近年应运而生，由相关研究团队构建，旨在系统探索大型语言模型在学术同行评审流程中的应用潜力与边界。该数据集汇集了超过五万条科学论文评审意见，精细划分了从纯人工智能生成到完全人工撰写的多层次人机协作模式，核心研究问题聚焦于评估不同提示策略与模型对评审质量的影响，并为人机协同评审的标准化与伦理规范提供了关键数据支撑，对推动学术出版智能化转型具有深远意义。

当前挑战

该数据集致力于应对学术同行评审自动化这一复杂领域问题，其核心挑战在于如何准确区分并评估人工智能生成与人类撰写评审在深度、一致性及批判性思维上的细微差异，同时需确保生成内容符合学术伦理与真实性标准。在构建过程中，研究团队面临数据采集与标注的复杂性，需整合多源人类评审数据并设计严谨的提示工程框架以覆盖多样化协作层级，此外还需克服不同大型语言模型输出稳定性与偏见控制的技术难题，以保障数据集的代表性与可靠性。

常用场景

经典使用场景

在学术出版与同行评审领域，随着人工智能技术的渗透，如何评估AI生成文本的质量与真实性成为关键议题。该数据集通过整合超过五万条科学论文评审，涵盖从基础提示生成到人类润色等多种人机协作层次，为研究者提供了一个系统性的基准平台。其经典使用场景在于支持对AI生成评审的检测与分析，例如通过对比不同提示策略下的输出差异，探索大语言模型在学术评审任务中的表现边界与潜在偏差。

实际应用

在实际应用层面，该数据集可服务于学术出版机构、会议程序委员会以及科研诚信监督部门。例如，出版机构可利用数据集训练自动化工具，以筛查投稿中可能存在的AI生成评审内容，维护评审过程的公正性。同时，教育机构也可借助该数据集开发培训材料，帮助审稿人识别AI辅助文本的特征，提升学术共同体的整体审稿素养与防范意识。

衍生相关工作

围绕该数据集，已衍生出一系列关注AI文本检测与学术诚信的前沿研究。经典工作包括基于多层级人机协作数据构建分类模型，以区分AI生成与人类撰写评审；亦有研究利用其探索提示工程对评审质量的影响，优化AI辅助评审的生成策略。此外，数据集还促进了针对“人类化”文本的检测方法开发，为应对日益复杂的AI伪装行为提供了技术基础。

以上内容由遇见数据集搜集并总结生成