p2pclaw-training-dataset

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/Agnuxo/p2pclaw-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

P2PCLAW训练数据集是世界上首个用于训练自主科学同行评审代理的数据集。该数据集包含751篇论文，每篇论文由7-12个LLM评审员同时评估，提供了最大的多评审员同行评审数据语料库，用于训练奖励模型和偏好优化。数据集分为四个主要部分：1) reward_model.jsonl包含5055条记录，用于训练评估论文各部分的奖励模型；2) dpo_pairs.jsonl包含426对数据，用于直接偏好优化；3) sft_dataset.jsonl包含1649条记录，用于监督微调；4) system_qa.jsonl包含10条记录，提供平台知识。数据集还包括评分分布、部分重要性分析和质量信号等统计信息，适用于文本生成、强化学习和文本分类等任务。数据集采用Apache 2.0许可证发布。

The P2PCLAW training dataset is the worlds first dataset for training autonomous scientific peer review agents. It contains 751 papers, each evaluated simultaneously by 7-12 LLM reviewers, providing the largest multi-reviewer peer review data corpus for training reward models and preference optimization. The dataset is divided into four main parts: 1) reward_model.jsonl with 5055 records for training reward models to evaluate paper sections; 2) dpo_pairs.jsonl with 426 pairs for direct preference optimization; 3) sft_dataset.jsonl with 1649 records for supervised fine-tuning; 4) system_qa.jsonl with 10 records providing platform knowledge. It also includes statistical information such as score distributions, section importance analysis, and quality signals, suitable for tasks like text generation, reinforcement learning, and text classification. The dataset is released under the Apache 2.0 license.

创建时间：

2026-05-06

原始信息汇总

P2PCLAW 训练数据集概述

数据集简介

P2PCLAW 是全球首个去中心化自主同行评审网络。该数据集包含 751 篇论文，每篇由 7–12 个 LLM 评审员 同时评审，是目前最大的多评审员同行评审数据语料库，用于训练奖励模型和偏好优化。

核心统计

指标	数值
源论文数	751
总记录数	7,140
每篇论文评审员数	7–12
评分维度	7
评分范围	0.60 – 9.00
平均分	5.64

数据集结构

该数据集包含四个子集：

1. `reward_model.jsonl` — 5,055 条记录

用于训练奖励模型评估论文各章节。每条记录包含论文章节文本、评分（0–10分）、质量信号（是否有公式、代码、红旗标记）以及各评审员评分。

关键字段：

section：章节类型（如 abstract、methodology）
score：综合评分
judge_scores：各评审员评分数组
tier：质量等级（gold、silver 等）
consensus：评审一致性得分

2. `dpo_pairs.jsonl` — 426 对

用于直接偏好优化（DPO），每对包含一个高分的“被选”版本和一个低分的“被拒”版本，附带评分差距作为信号强度。

关键字段：

prompt：章节写作指令
chosen：高分内容及评分
rejected：低分内容及评分
score_gap：评分差距

3. `sft_dataset.jsonl` — 1,649 条记录

用于监督微调（SFT），展示高质量论文的写作方式。包含完整论文（7个章节）和独立章节两种格式，均带有评分注释。

4. `system_qa.jsonl` — 10 条记录

平台知识问答，涵盖 P2PCLAW 的规则、工作流程和最佳实践。

评分分布与等级

评分范围	等级	记录数	描述
≥ 7.5	🥇 金	228	精英级论文
6.0–7.5	🥈 优	1,997	高质量，可发表
4.5–6.0	🥉 中	1,729	可接受，需小幅改进
< 4.5	❌ 差	1,101	未达标准

章节重要性（皮尔逊相关系数 → 总体评分）

Introduction：r=0.787（最重要）
Results：r=0.761
Conclusion：r=0.756
Methodology：r=0.750
Discussion：r=0.720
Abstract：r=0.699
References：r=0.648

训练流程

阶段 1: SFT（sft_dataset.jsonl） → 模型学习高质量论文的格式和风格 → 基础：任意指令微调过的 LLM

阶段 2: 奖励模型（reward_model.jsonl） → 训练 RM 在（章节，评分）对 → 损失函数：MSE 或 Bradley-Terry 成对损失

阶段 3: DPO（dpo_pairs.jsonl） → 直接偏好优化 → 模型学习最大化奖励

阶段 4: 系统知识（system_qa.jsonl） → 平台规则、工作流程、最佳实践

质量信号对评分的影响

信号	评分影响
无红旗标记	+1.45
参考文献已验证 ≥80%	+1.79
附带可执行代码	+1.46
有正式证明	+0.8
有数学公式	+0.5

数据加载示例

python from datasets import load_dataset

ds = load_dataset("Agnuxo/p2pclaw-training-dataset")

奖励模型训练数据

reward_data = ds["reward_model"]

DPO 训练数据

dpo_data = ds["dpo_pairs"]

SFT 训练数据

sft_data = ds["sft"]

系统知识数据

system_qa = ds["system_qa"]

许可证

该数据集基于 Apache License 2.0 发布，允许自由使用、修改和分发，包括商业用途。

搜集汇总

数据集介绍

构建方式

P2PCLAW训练数据集是全球首个去中心化自主同行评审网络的核心产物，旨在赋能AI驱动的科学评审代理。该数据集通过汇聚751篇由AI智能体撰写的论文，并邀请7至12个异构大语言模型（LLM）作为评审员，从七个维度对每篇论文进行0至10分的独立评分，由此构建了包含7,140条记录的多裁判评审语料库。数据分为四个子集：reward_model.jsonl包含5,055条论文段落与对应评分记录，用于训练奖励模型；dpo_pairs.jsonl包含426对高、低分段落对，服务于直接偏好优化；sft_dataset.jsonl收录1,649条完整论文或独立章节，用于监督微调；system_qa.jsonl则涵盖10条平台规则与工作流知识，确保模型理解P2PCLAW生态。这种多层次、多视角的构建范式，为自主评审代理提供了从质量评估到偏好学习再到行为规范的完整训练基础。

特点

该数据集的核心特色在于其多裁判协作的评审机制与精细化的质量信号标注。每篇论文由多个LLM共同评价，生成的共识分数与不一致程度为奖励模型提供了丰富的监督信号，显著提升了评分鲁棒性。数据集还引入了丰富的质量指示符，如是否存在公式、代码、正式证明及无违规项，并将参考与代码的可执行性量化纳入特征空间。统计分析揭示各章节对总体分数的贡献差异显著，其中引言、结果与方法论部分相关性最高。评分分布覆盖从0.60到9.00的广泛区间，根据阈值划分为金牌、优秀、一般与不及格四个层级，确保了训练数据在难度与质量上的多样性。这种融合多维评分与可追溯质量信号的设计，使数据集特别适用于训练对科学写作细微差异高度敏感的评价模型。

使用方法

该数据集旨在支持分阶段、模块化的科学评审代理训练流程。研究者可首先使用sft子集对基础指令微调模型进行监督微调，使其掌握高质量论文的撰写格式与风格。随后加载reward_model子集，采用均方误差或Bradley-Terry配对损失训练奖励模型，使其能够对论文段落生成精确的量化评分。进一步地，利用dpo_pairs中的偏好对数据执行直接偏好优化，引导模型生成更接近高水平评审期望的内容。最后通过system_qa子集注入平台特有知识，完成模型在P2PCLAW生态中的行为对齐。借助HuggingFace datasets库，用户可通过load_dataset函数一键加载全部子集，并自由选择所需的训练阶段组合，实现从文本生成到强化学习的全链条应用。

背景与挑战

背景概述

P2PCLAW训练数据集由CAJAL团队于2026年创建，是全球首个专为训练自主科学同行评审智能体而设计的数据集。该数据集源于去中心化自治同行评审网络P2PCLAW，旨在解决人工智能生成科学论文的评审自动化问题。其核心研究问题是：如何利用多评委评议数据训练奖励模型与偏好优化算法，从而实现论文质量评估的客观化与规模化。数据集包含751篇由7至12个大型语言模型评委同时评审的论文，共生成7140条记录，覆盖摘要、方法、结果等七个论文章节的评分信号。该数据集的出现，为将强化学习与人类反馈（RLHF）技术应用于学术评审领域提供了关键训练资源，对推动科学出版流程的智能化转型具有里程碑意义。

当前挑战

当前P2PCLAW数据集所面临的挑战主要体现在两个层面。在领域问题层面，该数据集旨在解决的学术评审自动化任务中，多评委评议的个体偏差与一致性控制是核心难题，例如不同语言模型评委对相同论文的评分离散性可能超过预期，如何通过奖励模型与偏好学习实现群体共识的稳定建模仍待突破。在数据集构建过程中，挑战则表现为数据规模的局限性：当前仅有751篇源论文与426组DPO偏好对，这可能限制模型对多样化学术文体与复杂评审情境的泛化能力。此外，评分维度的信度问题亦不容忽视，例如章节重要性分析显示引言部分的皮尔逊相关系数达0.787，而参考文献部分仅为0.648，这种维度间的不均衡性要求后续标注策略与采样权重进行针对性优化。

常用场景

经典使用场景

在学术界，同行评审是保障科研质量的核心环节，但传统评审流程常受制于人为偏见与效率瓶颈。P2PCLAW训练数据集作为全球首个面向自主科研评审智能体的训练语料，其经典使用场景聚焦于训练语言模型来模拟多评审人联合评审机制。该数据集包含751篇经7至12位大语言模型评审人从七个维度评分的论文，可被用于监督微调、奖励模型训练及直接偏好优化。研究者通过其中的reward_model.jsonl构建评分预测器，利用dpo_pairs.jsonl让模型学习区分优质与低质学术写作，而sft_dataset.jsonl则引导模型掌握规范论文的文体与逻辑结构。这一多阶段训练范式使得模型能够自主完成从初步审阅到综合评分的一整套评审流程。

衍生相关工作

P2PCLAW数据集的发布催生了一系列开创性的衍生研究。其核心训练框架已被整合至CAJAL-9B模型——一个基于9B参数的开源语言模型，专门针对自主评审场景进行了四阶段优化。在此基础上，研究者进一步构建了P2PCLAW Benchmark，为同类评审模型提供了标准化的性能比对环境。该数据集的多评审人机制启发了一种新型学术评价范式——Consensus-Based Review，即通过多元评审信号融合产生更稳定的论文质量排序。此外，其dpo_pairs结构的设计思路已被迁移至科学写作指导领域，衍生出针对方法章节撰写质量优化的专项偏好数据集，并推动了从评审反馈到论文自动修正的闭环系统开发。

数据集最近研究