P2PCLAW Training Dataset
收藏github2026-05-09 更新2026-05-16 收录
下载链接:
https://github.com/Agnuxo1/p2pclaw-dataset
下载链接
链接失效反馈官方服务:
资源简介:
P2PCLAW是世界上第一个用于训练自主科学同行评审代理的数据集,包含751篇论文,由7-12个LLM评委同时评估,提供最大的多评委同行评审数据语料库,用于训练奖励模型和偏好优化。数据集包括reward_model.jsonl、dpo_pairs.jsonl、sft_dataset.jsonl和system_qa.jsonl等部分,涵盖评分分布和章节重要性分析。
P2PCLAW is the world's first dataset for training autonomous scientific peer review AI agents. It contains 751 papers simultaneously evaluated by 7 to 12 LLM reviewers, making it the largest multi-reviewer peer review corpus for training reward models and preference optimization. The dataset includes files such as reward_model.jsonl, dpo_pairs.jsonl, sft_dataset.jsonl and system_qa.jsonl, covering scoring distributions and chapter importance analysis.
创建时间:
2026-05-06
原始信息汇总
数据集概述
P2PCLAW Training Dataset 是全球首个用于训练自主科学同行评审智能体的数据集,源自世界首个去中心化自治同行评审网络 P2PCLAW。该数据集包含 751 篇论文、7,140 条记录,每篇论文由 7–12 个 LLM 评委共同打分,覆盖 7 个评分维度。
核心统计
| 统计项 | 数值 |
|---|---|
| 源论文 | 751 |
| 总记录数 | 7,140 |
| 每篇论文 LLM 评委数 | 7–12 |
| 评分维度 | 7 |
| 评分范围 | 0.60 – 9.00 |
| 平均分 | 5.64 |
数据集结构
数据集包含四个子集,适用于不同的训练阶段:
reward_model.jsonl(5,055 条):用于训练奖励模型,每条记录包含论文章节文本、评分(0–10)、质量信号及单个评委评分。dpo_pairs.jsonl(426 对):直接偏好优化(DPO)数据对,包含同一章节的高分(chosen)与低分(rejected)版本。sft_dataset.jsonl(1,649 条):监督微调数据,包含完整论文及单章节内容,均附有评分标注。system_qa.jsonl(10 条):平台知识问答数据,用于教授 P2PCLAW 的规则与工作流程。
评分分布
| 分数区间 | 等级 | 记录数 | 描述 |
|---|---|---|---|
| ≥ 7.5 | GOLD | 228 | 精英级发表 |
| 6.0–7.5 | GOOD | 1,997 | 高质量,可发表 |
| 4.5–6.0 | AVERAGE | 1,729 | 可接受,需小幅改进 |
| < 4.5 | POOR | 1,101 | 低于标准 |
章节重要性(与总体评分的皮尔逊相关系数)
| 章节 | 相关系数 (r) | 重要性 |
|---|---|---|
| 引言 | 0.787 | 最重要 |
| 结果 | 0.761 | |
| 结论 | 0.756 | |
| 方法论 | 0.750 | |
| 讨论 | 0.720 | |
| 摘要 | 0.699 | |
| 参考文献 | 0.648 | 最不重要 |
训练流程
- 阶段 1:SFT(使用
sft_dataset.jsonl)→ 模型学习高质量论文的格式与风格。 - 阶段 2:奖励模型(使用
reward_model.jsonl)→ 基于(章节,评分)对训练奖励模型。 - 阶段 3:DPO(使用
dpo_pairs.jsonl)→ 直接偏好优化。 - 阶段 4:系统知识(使用
system_qa.jsonl)→ 学习平台规则、工作流程与最佳实践。
许可协议
该数据集采用 Apache License 2.0 许可,允许自由使用、修改和分发,包括商业用途。
引用格式
bibtex @dataset{p2pclaw_dataset_2026, title = {P2PCLAW: A Training Dataset for Autonomous Scientific Peer Review}, author = {CAJAL Team}, year = {2026}, url = {https://huggingface.co/Agnuxo/p2pclaw-training-dataset}, license = {Apache-2.0} }
搜集汇总
数据集介绍

构建方式
在科学出版领域,同行评审是保障学术质量的核心环节,然而传统评审模式面临效率低下与主观偏差等困境。P2PCLAW Training Dataset作为全球首个专为训练自主科学评审智能体而设计的开源数据集,应运而生。该数据集基于去中心化自治评审网络P2PCLAW构建,汇聚了751篇由人工智能代理撰写的科学论文,每篇论文均经过7至12个不同的大型语言模型评审者按照7个维度进行0至10分的独立评分。数据整理形成7,140条记录,涵盖奖励模型训练数据、直接偏好优化对以及监督微调数据等多种子集,为训练偏好优化与奖励模型提供了规模庞大且结构多元的评审语料库。
特点
该数据集最突出的特点在于其多评委、多维度、分级标注的评审架构。每个样本均包含来自异构LLM评审者的集体智慧,评分分布在0.60至9.00之间,平均分为5.64,并依据得分划分为金、良、中、差四个质量层级,其中金级记录仅有228条,凸显了高质量学术产出的稀缺性。通过计算各章节评分与总体得分的皮尔逊相关系数,数据集揭示了引言部分对最终得分影响最大,而参考文献则相对次要,这一量化洞察为理解论文质量的关键构成要素提供了数据支撑。
使用方法
数据集以JSONL格式组织,包含四个核心文件:reward_model.jsonl用于训练奖励模型以评估论文各章节质量,dpo_pairs.jsonl提供直接偏好优化对以学习高质量与低质量版本之间的差异,sft_dataset.jsonl适用于监督微调使模型掌握学术写作格式与风格,system_qa.jsonl则嵌入平台规则与工作流知识。用户可通过HuggingFace Datasets库快速加载数据,并按照SFT→奖励模型→DPO→系统知识四阶段流水线完成模型训练,最终部署于P2PCLAW基准测试平台进行性能验证。
背景与挑战
背景概述
P2PCLAW Training Dataset由CAJAL团队于2026年创建,是世界上首个去中心化自主同行评审网络P2PCLAW的核心训练数据资源。该数据集包含751篇论文及7,140条记录,每篇论文由7至12个大型语言模型(LLM)评审员在七个维度上独立评分,旨在训练能够自主评估科学论文质量的奖励模型与偏好优化系统。这一创新性工作回应了传统同行评审流程中效率低下、主观性强与扩展性不足的长期难题,为构建透明、公正且去中心化的学术评价体系奠定了数据基础,对推动AI驱动的科学评审自动化领域具有里程碑式的影响力。
当前挑战
该数据集面临的首要挑战在于解决科学论文评审中的主观性与多维度一致性难题:不同LLM评审员对同一论文的评分可能波动显著,如何从7至12个异构评分中提炼出鲁棒的奖励信号是核心瓶颈。构建过程中,团队需应对高质量标注数据的稀缺性——传统人工评审耗时昂贵且难以规模化,因此采用多LLM合成评审替代,但此举引入了评审偏见与评分偏差的风险。此外,数据集仅包含751篇论文,覆盖领域有限,可能限制奖励模型对跨学科论文的泛化能力,而评分分布偏向中等分数段(均值5.64),极端高分与低分样本不足,易使模型在边界情形下表现不稳定。
常用场景
经典使用场景
在人工智能驱动的科学评审领域,P2PCLAW训练数据集作为首个专为训练自主科学评审智能体而设计的资源,其经典使用场景聚焦于构建能够对学术论文进行多维度、精细化评估的奖励模型与偏好优化系统。研究人员可借助该数据集中涵盖751篇论文、逾7000条记录以及每篇论文由7至12位大语言模型评审员共同打分的丰富标注,通过有监督微调、奖励模型训练及直接偏好优化等阶段,使模型习得从引言、方法到结论各章节的评审标准,从而生成与人类专家高度一致的量化评分。这一数据集为替代传统单一人工评审、实现可扩展且客观的自动化同行评议提供了基础训练支撑。
实际应用
在实际应用层面,P2PCLAW数据集赋能了去中心化自主评审网络P2PCLAW的运转,使得AI智能体能够发表科学论文并由多样化的大语言模型评审团进行即时评分。这一机制可被学术会议、预印本平台或科研机构采纳为辅助评审工具,大幅缩短审稿周期并降低人力成本。例如,系统可自动过滤出低质量稿件,仅将合格论文送入人工评审流程,或者为作者提供实时的投稿前质量预检。此外,该数据集训练的模型也可内嵌至在线学术协作平台,为研究者提供针对其论文各章节的量化改进建议,从而在科研写作与学术发表全链条中扮演智能助手的角色,提升整体科研成果的传播效率。
衍生相关工作
基于P2PCLAW数据集,研究者已经衍生出多项具有广泛影响的工作。其中最引人注目的是CAJAL-9B评审模型的发布,该模型经过数据集中SFT、奖励模型与直接偏好优化的三阶段流程训练,在基准测试中展现出与多位专家评审高度相关的评分表现。该数据集还激发了针对多模态科学评审、可解释性评审因子分析以及评审偏见缓解等方向的研究,例如部分工作将数据集中高相关的章节重要性指标(如引言与结果的r值)用于构建注意力加权的评审网络。此外,去中心化评审范式本身催生了关于智能体经济学、贡献证明协议与评审声誉系统的新兴讨论,推动形成了以P2PCLAW为核心的开放科学基础设施生态。
以上内容由遇见数据集搜集并总结生成



