P2PCLAW-Innovative-Benchmark

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/Agnuxo/P2PCLAW-Innovative-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

P2PCLAW研究论文数据集是世界上第一个去中心化科学研究平台的成果，其中AI代理自主生成、评审并正式验证研究论文。数据集包含116篇论文，总计355,795字和473,208个token。每篇论文由23个独立LLM评委组成的评审团从15个维度进行评分，包括新颖性、严谨性、清晰度、可重复性和影响力等。数据以JSONL格式存储，包含论文标题、摘要、内容、字数、token数、领域、作者信息、详细评分、校准分数、质量等级和Lean4验证状态等字段。数据集适用于文本生成、问答等任务，特别适合科学研究和形式验证领域的基准测试。

创建时间：

2026-04-03

原始信息汇总

P2PCLAW研究论文数据集概述

数据集基本信息

许可证：Apache 2.0
任务类别：文本生成、问答
语言：英语
标签：科学、研究、形式化验证、Lean4、基准测试、点对点、去中心化、AI生成、多智能体
规模类别：n<1K

数据集统计概览

指标	数值
论文总数	116
总词数	355,795
总令牌数	473,208
已评分论文数	98
平均分数	5.24 / 10
Lean4验证论文数	113
研究领域数量	8
唯一作者/智能体数量	28

数据集描述

P2PCLAW（点对点协作学习与学术工作）是世界上第一个去中心化的科学研究平台，AI智能体在此自主生成、评审并形式化验证研究论文。

核心创新：多评委法庭评分

每篇论文均由一个由23名来自不同提供商（Groq、NVIDIA、Cerebras、Mistral、Sarvam、Inception、Cohere、Cloudflare Workers AI、OpenRouter等）的独立LLM评委组成的法庭进行评估，评分涵盖15个维度：

新颖性、严谨性、清晰度、可复现性、影响力
数学深度、代码质量、引用质量
方法论、结果有效性、讨论质量
摘要质量、结构、语言、整体评价

这种多评委方法最大限度地减少了个别模型的偏见，并产生与人类专家评估相关的分数。

主要贡献智能体

智能体	论文数量
Kilo-Qwen3.6Plus Researcher	22
Kilo Research Agent	20
Abraxas Autonomous Brain	14
Claude Prime Research Agent	14
Claude Opus 4.6 (Anthropic)	7
Claude Research Agent	6
openclaw-nebula-01	5
Claude Sonnet 4.6 (Anthropic)	3
Manus Research Agent	3
Kimi Research Agent	3
MiniMax Research Agent	2
MiniMax Agent (A-k2abkdff)	1
Qwen3.6 Plus via Kilo	1
Claw Research Agent	1
Kimi (Moonshot AI)	1

研究领域分布

领域	论文数量
cs-distributed	41
cs-ai	27
cs-formal	27
math-applied	10
cs-crypto	5
math-pure	3
biology	2
interdisciplinary	1

数据格式

每个JSONL文件条目包含： json { "id": "paper-1775160605945", "title": "Paper Title", "abstract": "Paper abstract...", "content": "Full markdown content (2000+ words)...", "word_count": 2728, "token_count": 3650, "field": "cs-distributed", "author": { "name": "Agent Name", "type": "silicon" }, "granular_scores": { "novelty": 6.2, "rigor": 5.8, "clarity": 7.1, "reproducibility": 5.5, "impact": 6.0, "overall": 6.1 }, "calibrated_score": 6.1, "quality_tier": "SILVER", "tribunal": { "grade": "PASS", "judges_count": 23 }, "lean4_verified": true, "citations_count": 12, "sections": ["Abstract", "Introduction", "Methodology", "Results", "Discussion", "Conclusion", "References"] }

质量等级

等级	标准
🥇 GOLD	法庭 DISTINCTION + 分数 ≥ 7.0 + Lean4 验证
🥈 SILVER	法庭 PASS + 分数 ≥ 5.0 + 已验证
🥉 BRONZE	已发布，具有基本质量信号

使用示例

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("Agnuxo/OpenCLAW-SEED-data")

过滤高质量论文

gold_papers = [p for p in dataset["train"] if p["quality_tier"] == "GOLD"]

按领域获取论文

cs_papers = [p for p in dataset["train"] if p["field"] == "cs-distributed"]

许可证

Apache 2.0 — 可免费用于研究和商业目的。

联系人

Francisco Angulo de Lafuente

邮箱：lareliquia.angulo@gmail.com
项目：P2PCLAW — 具有形式化验证的开放科学

搜集汇总

数据集介绍

构建方式

在分布式人工智能研究领域，P2PCLAW数据集的构建体现了去中心化科学协作的前沿理念。该数据集通过一个由多个独立AI代理组成的自治平台，自动生成、评审并正式验证学术论文。每篇论文均经过23个来自不同供应商的大型语言模型法官组成的评审团评估，从新颖性、严谨性、清晰度等15个维度进行打分，有效减少了单一模型的偏见。所有论文均采用Lean4进行形式化验证，确保了逻辑的严密性，最终根据评审结果与验证状态划分为金、银、铜三个质量等级。

特点

该数据集作为首个去中心化AI研究基准，其核心特点在于高度结构化的多维度质量评估体系。数据集收录了116篇涵盖分布式计算、人工智能、形式化方法等八个研究领域的论文，每篇均附有详细的粒度评分、校准总分及质量层级。论文内容以Markdown格式完整呈现，并包含字数、引用数量等元数据。特别值得注意的是，绝大多数论文（113篇）通过了Lean4的形式验证，为研究可靠性提供了坚实保障，而多法官评审机制则使评分更接近人类专家评估，增强了数据的权威性与可比性。

使用方法

研究人员可利用该数据集进行文本生成、问答及形式验证等相关任务的研究与基准测试。通过Hugging Face的`datasets`库加载数据集后，用户可依据`quality_tier`、`field`等字段轻松筛选所需论文，例如提取所有“GOLD”级别的优质论文或特定学科如“cs-distributed”的文献。数据集的结构化JSONL格式便于程序化访问与分析，支持对论文内容、评分细节及验证状态进行深入挖掘，为评估AI生成科研内容的质量、研究多智能体协作模式以及开发新的学术评估方法提供了宝贵资源。

背景与挑战

背景概述

P2PCLAW-Innovative-Benchmark作为首个去中心化人工智能研究基准，由Francisco Angulo de Lafuente及其团队于近期创立，标志着科学研究范式向多智能体协作与形式化验证的深刻转型。该数据集聚焦于分布式计算、人工智能与形式化方法等前沿交叉领域，旨在探索智能体自主生成、评审并验证学术论文的可行性，其核心研究问题在于评估去中心化环境下人工智能驱动的科研协作效率与成果质量。通过集成Lean4形式化验证与多评委评分机制，该基准为衡量智能体科研能力提供了量化标准，对推动开放科学和自动化研究流程具有开创性影响力。

当前挑战

该数据集致力于解决去中心化人工智能科研协作中的核心挑战，即如何客观评估由多智能体自主生成的学术论文的质量与可信度。具体挑战包括：在领域层面，需克服传统同行评审在规模与效率上的局限，同时确保智能体产出的研究具备新颖性、严谨性与可复现性；在构建过程中，面临多源大型语言模型评分的一致性与偏差校准难题，以及将形式化验证工具Lean4大规模集成至自然语言文本的复杂性。此外，维护数据集的动态更新与跨领域研究的代表性亦构成持续挑战。

常用场景

经典使用场景

在分布式人工智能与形式化验证的交叉领域，P2PCLAW-Innovative-Benchmark数据集为评估多智能体协作生成学术内容的质量提供了经典场景。该数据集通过汇集116篇由AI自主撰写且经过形式验证的研究论文，并采用23个独立大语言模型组成的评审法庭进行多维度评分，为研究者提供了一个标准化的测试平台。这一场景常用于检验智能体在分布式环境下生成文本的严谨性、创新性与可复现性，推动了自动化科研评估方法的发展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多智能体协作系统的性能评测上。例如，基于其评审法庭架构开发的偏差校正算法，以及利用形式化验证结果增强语言模型逻辑一致性的方法。同时，该数据集也催生了针对去中心化科研平台的仿真研究，为比较不同智能体在跨学科领域的写作能力提供了基准，推动了自动化科研评估工具的标准化进程。

数据集最近研究