peerreview-bench

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/prometheus-eval/peerreview-bench

下载链接

链接失效反馈

官方服务：

资源简介：

PeerReview Bench 是一个专家标注的科学论文评审数据集，专为三种互补的评估任务设计。数据集包含五个配置：`reviewer`（评估AI评审员生成评审的能力）、`meta_reviewer`（评估AI元评审员标注评审项的能力）、`expert_annotation`（用于统计分析和人类与AI评审相似性测量）、`similarity_check`（用于基准测试自动化相似性度量）和`submitted_papers`（去重的论文文件存储）。每个配置都有详细的字段说明和使用示例。数据集适用于文本分类和文本生成任务，特别适合科学论文评审和元评审的研究。所有数据仅用于评估，不适用于训练。数据集采用CC-BY-4.0许可。

创建时间：

2026-04-13

原始信息汇总

PeerReview Bench 数据集概述

数据集基本信息

数据集名称：PeerReview Bench
许可证：CC-BY-4.0
语言：英语 (en)
主要任务类别：文本分类、文本生成
标签：同行评审、科学论文、专家标注、评估、多模态

数据集配置

数据集包含五个独立的配置，每个配置仅包含一个评估 (eval) 分割。所有配置通过SHA256内容哈希引用一个共享的、去重化的文件存储 (submitted_papers)。

1. `reviewer` 配置

用途：评估AI审稿人（根据论文生成审稿意见的模型）。
数据结构：每行对应一篇论文。
关键字段：paper_id, paper_title, paper_content (预印本.md文本), file_refs (指向 submitted_papers 的指针)。
使用方式：加载一篇论文，通过 file_refs 和 submitted_papers 重建其文件，将内容输入AI审稿人，并将生成的审稿意见与 expert_annotation 中的真实审稿意见进行比较。

2. `meta_reviewer` 配置

用途：评估AI元审稿人（对现有审稿项目进行正确性/重要性/证据标注的LLM或智能体）。
数据结构：每行对应一个（论文，审稿人，审稿项目），仅包含初级和次级标注者都贡献了标注的论文。
标注信息：包含每个标注者的标签（correctness_primary, correctness_secondary 等）以及一个单一的聚合 label。该 label 属于10个类别之一，编码了级联结果和每个指标的标注者一致性。

标签类别：

ID	标签	含义
1	`correct_significant_sufficient`	两位标注者：正确 + 重要 + 证据充分
2	`correct_significant_insufficient`	两位标注者：正确 + 重要 + 需要更多证据
3	`correct_significant_disagree_on_evidence`	两位标注者：正确 + 重要，但在证据上存在分歧
4	`correct_marginal_sufficient`	两位标注者：正确 + 边缘重要 + 证据充分
5	`correct_marginal_insufficient`	两位标注者：正确 + 边缘重要 + 需要更多证据
6	`correct_marginal_disagree_on_evidence`	两位标注者：正确 + 边缘重要，但在证据上存在分歧
7	`correct_not_significant`	两位标注者：正确 + 不重要
8	`correct_disagree_on_significance`	两位标注者：正确，但在重要性上存在分歧
9	`incorrect`	两位标注者：不正确
10	`disagree_on_correctness`	标注者在项目是否正确上存在分歧

关键字段：paper_id, paper_title, paper_content, file_refs, reviewer_id, reviewer_type, review_item_number, review_item, correctness_primary, correctness_secondary, significance_primary, significance_secondary, evidence_primary, evidence_secondary, label_id, label.

3. `expert_annotation` 配置

用途：用于统计分析和人工与AI审稿相似性测量。
数据结构：每行对应一个（论文，审稿人，审稿项目，标注者来源）；被初级和次级标注者都标注过的项目会以两行出现。
标注者来源：annotator_source ∈ {primary, secondary}。
数据清洗：应用了逐行有效性规则：不完整的级联项目被丢弃，级联中断后的标签被置空。
关键字段：paper_id, paper_title, paper_content, file_refs, annotator_source, reviewer_id, reviewer_type, review_item_number, review_item, correctness, significance, evidence, annotator_comments.

4. `similarity_check` 配置

用途：针对专家关于两个同行评审项目是否涉及相同基本问题的判断，对自动化相似性度量（基于嵌入或LLM）进行基准测试。
数据结构：包含238个（论文，审稿项目A，审稿项目B）元组。
标签：
- binary_label：二元标签 (similar 或 not_similar)，与标注者的隐含判断相匹配。
- finegrained_label：来自人工审核的四类别诊断标签：
  - "same subject, same argument, same evidence" — 近似转述
  - "same subject, same argument, different evidence" — 趋同结论
  - "same subject, different argument" — 主题相邻
  - "different subject" — 不相关
数据分布：119个相似（74个趋同结论 + 45个近似转述） + 119个不相似（41个主题相邻 + 78个不相关）。
审稿人类型平衡：在不相似集合中，60个AI-AI / 59个AI-人工；在相似集合中，63个AI-AI / 56个AI-人工。
关键字段：eval_pair_id, source_pair_id, paper_id, paper_title, paper_content, item_a_reviewer_id, item_a_reviewer_type, item_a_item_number, item_a_text, item_b_reviewer_id, item_b_reviewer_type, item_b_item_number, item_b_text, binary_label, finegrained_label, pair_type, rationale, source_bucket.

5. `submitted_papers` 配置

用途：每篇论文 preprint/ 目录下每个文件的去重化二进制存储。
数据结构：每行对应一个唯一的SHA256哈希。
关键字段：content_hash, content_bytes (二进制), size_bytes, is_text。
文件包含：包含 preprint/ 下的每个文件（不包括 .DS_Store 和常见元数据目录），无单文件大小限制。
查找方式：构建一次哈希到字节的字典，然后通过其他配置的 file_refs 列中的哈希进行索引。

审稿项目 (`review_item`) 列说明

对于 expert_annotation 和 meta_reviewer 配置，每个审稿项目都是一个单一的、自由格式的 review_item 字符串，读起来像自然的审稿人评论。

对于人工审稿人，review_item 是审稿人自己撰写的文本。
对于AI审稿人，review_item 是底层结构化Markdown的合并版本：主要批评点，后跟证据引用和评论（已去除 * Main point of criticism:, * Quote:, * Comment:, 和 * Evaluation criteria: 标记），然后是任何引用的参考文献。

有效性规则（应用于 `expert_annotation` 和 `meta_reviewer`）

标注遵循级联规则：首先标记正确性；仅在“正确”时标记重要性；仅在至少“边缘重要”时标记证据。

规则2：正确但无重要性标签 → 完全丢弃。
规则3：正确 + （边缘）重要但无证据标签 → 丢弃。
规则5：不正确但输入了重要性标签 → 重要性和证据被剥离（置空）。
规则6：正确 + 不重要但输入了证据标签 → 证据被剥离。
重要性类别：始终为3类：原始的4选项“非常重要”选择被合并到“重要”中。

数据集使用目的

所有数据均用于评估，而非训练。

搜集汇总

数据集介绍

构建方式

在学术出版领域，同行评审是确保研究质量的关键环节。PeerReview Bench数据集的构建依托于科学论文的专家标注评审条目，通过精心设计的五个配置模块实现。其核心采用去重存储机制，将每篇论文的预印本文件以SHA256哈希值索引，确保数据的一致性与完整性。构建过程中，专家对评审条目进行多维度标注，涵盖正确性、显著性和证据充分性，并遵循严格的级联验证规则，剔除了标注不完整的条目，从而形成了高质量的结构化评估基准。

特点

该数据集在同行评审评估领域展现出鲜明的特色。其多配置架构支持互补的评估任务，包括AI评审生成、元评审标注及相似性度量。数据集通过精细的标注体系，将专家意见编码为十个统一的类别，同时保留了原始的双标注者信息，便于分析标注者间的一致性。此外，相似性检查模块提供了二元与细粒度标签，并平衡了AI与人类评审条目的对比，为评估自动化相似性指标提供了可靠的基础。去重的文件存储设计也确保了数据引用的高效与准确。

使用方法

对于研究人员而言，该数据集为评估AI在同行评审中的表现提供了标准化流程。使用AI评审生成模型时，需结合`reviewer`配置的论文内容与`submitted_papers`的文件引用，重构完整论文后生成评审，并与`expert_annotation`中的真实评审进行比对。评估AI元评审模型则直接利用`meta_reviewer`配置中的评审条目及其聚合标签进行预测。进行相似性分析或统计研究时，可加载`expert_annotation`或`similarity_check`配置，依据标注的二元或细粒度标签验证模型输出。所有配置仅包含评估分割，确保了基准测试的纯粹性。

背景与挑战

背景概述

PeerReview Bench数据集由Prometheus-Eval团队构建，旨在为人工智能驱动的同行评审系统提供标准化评估基准。该数据集聚焦于科学论文的同行评审过程，通过专家标注的评审条目，系统化地支持AI审稿人、元审稿人及相似性度量模型的性能评测。其核心研究问题在于如何量化评估AI模型在生成评审意见、评判评审质量以及识别评审内容相似性等复杂任务上的能力，从而推动学术出版流程的自动化与智能化发展。该数据集的创建标志着计算出版领域向细粒度、多任务评估范式的重要迈进，为相关研究提供了严谨的实证基础。

当前挑战

该数据集致力于解决同行评审自动化中的核心挑战：如何确保AI模型生成的评审意见具备正确性、显著性与证据充分性。具体而言，构建过程面临多重困难：首先，评审条目的专家标注需遵循严格的级联有效性规则，例如正确性优先于显著性判断，这要求标注协议具备高度的逻辑一致性与可操作性。其次，数据整合涉及多源异构内容，包括预印本文件、人类与AI评审文本，需通过哈希索引实现去重与高效关联。此外，相似性检查任务需人工审计以区分细微的语义差异，如“相同论点但不同证据”与“不同论点”的边界界定，这对标注者的领域专业知识提出了极高要求。

常用场景

经典使用场景

在学术出版与同行评审领域，PeerReview Bench数据集为评估人工智能系统在科学论文评审中的表现提供了标准化基准。其经典使用场景聚焦于评估AI审稿人模型，通过将论文内容输入模型，生成评审意见并与专家标注的真实评审进行对比，从而系统衡量模型在理解科学文献、提出批判性见解方面的能力。该过程模拟了真实学术期刊的评审流程，为自动化评审技术的发展奠定了实证基础。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，主要集中在自动化评审生成、元评审智能体开发以及评审相似性度量等领域。例如，有研究利用其评估大型语言模型生成结构化评审意见的可靠性；另有工作基于meta_reviewer配置构建多任务学习模型，以同时预测评审条目的分类标签与专家间一致性。这些工作共同推动了AI辅助科学评估方法学的进步，并催生了新的研究方向，如基于证据的自动论点评测。

数据集最近研究