AcademiClaw

github2026-05-03 更新2026-05-05 收录

下载链接：

https://github.com/GAIR-NLP/AcademiClaw

下载链接

链接失效反馈

官方服务：

资源简介：

AcademiClaw是一个双语（英语+中文）基准数据集，旨在衡量AI代理在用户已经难以完成的学术工作上的表现。数据集包含80个高质量任务，涵盖六个类别和25+专业领域，从奥林匹克级推理到GPU密集型强化学习和长上下文文学理解。

AcademiClaw is a bilingual (English and Chinese) benchmark dataset developed to assess the performance of AI Agents on academic tasks that are inherently challenging for human users to complete. The dataset includes 80 high-quality tasks spanning six categories and more than 25 professional domains, ranging from Olympiad-level reasoning to GPU-intensive reinforcement learning and long-context literary comprehension.

创建时间：

2026-05-02

原始信息汇总

AcademiClaw 数据集详情

数据集概述

AcademiClaw 是一个中英双语基准测试集，包含 80 个长时程任务，这些任务源自真实的本科生学术工作流程，当前的主流 AI 智能体无法独立完成。每个任务均由一名本科生提交，且该学生已尝试过至少一种主流 AI 编程智能体（如 Claude Code、Codex、Cursor），但发现智能体需要大量人工辅助才能完成任务。

数据集构成

维度	数量	说明
总任务数	80	从 230 份学生提交的候选任务中，经过两轮专家评审筛选得出
英文任务	49	英文原版任务
中文任务	31	原生中文任务（如汉语韵律、双拼、中文作文评分标准等），非翻译指令
GPU 任务	16	需要 CUDA 依赖（训练、渲染或推理）
仅 CPU 任务	64	无需 GPU

任务分类与领域

任务覆盖 6 大类别和 25+ 专业领域：

类别	任务数	代表性示例
研究与分析	21	ESP32-S3 多外设固件分析（I2S / I2C / SPI）；环境剥离的 F1 车手优势估算
机器学习与人工智能工程	17	Ascend NPU 多语言 ASR 部署（fairseq2）；各向同性 SVD 多任务模型融合（Iso-C / Iso-CTS）
软件工程	17	BVH 加速的蒙特卡洛路径追踪渲染器；混淆载荷解密的应急取证
STEM 推理	11	CMO 2024 证明题；IOL 2025 语言学奥林匹克；约束满足谋杀谜题推理
语言与创造力	7	古典诗词现代改编；Funk 音乐风格的 Locking 舞蹈编排与音乐分析
应用与领域特定	7	日本麻将向听数与有效牌计算器；多约束旅行行程规划

主要结果

模型表现排名

在 6 个前沿模型上的实验结果显示，最优模型也仅能解决 55% 的任务：

模型	平均得分	通过率 (%)	Token/任务 (千)	工具调用/任务	时长 (秒)	安全评分
Claude Opus 4.6	71.9	55.0	1,425	33	673	87.4
Claude Sonnet 4.6	68.3	55.0	1,562	26	662	88.7
GPT-5.4	65.6	42.5	525	19	240	87.5
Gemini 3.1 Pro	64.3	43.8	2,857	57	822	74.9
Qwen3.5-397B-A17B†	64.7	40.0	970	26	—	80.8
MiniMax M2.7	63.1	37.5	1,663	37	686	86.5

关键发现

任务类别比模型选择更重要：跨类别的平均分数范围从 76.9（语言与创造力） 到 50.6（STEM 推理），差距达 26.3 分；而跨模型的平均分数范围仅从 71.9（Opus）到 63.1（MiniMax）。在竞赛级任务（如 zh_huaxue_jingsai、en_fullstack_debug）上，所有模型的得分均崩溃至 23–27 分，且方差接近于零，表明存在系统性能力差距。
前沿模型具有不同的能力表型：六个模型每任务得分向量的两两 Pearson 相关系数范围从 0.27（GPT-5.4 vs. Gemini）到 0.73（Qwen3.5 vs. MiniMax），差异具有统计学显著性（Fisher z，p = 6.5 × 10⁻⁵），说明它们并非沿单一标量能力轴排列。
Token 消耗与任务得分基本不相关（汇总 Pearson r = -0.03，p = 0.49），前沿智能体似乎缺乏有效的停止标准。

评估框架

多维度评分标准（六种互补技术）

所有评分标准均采用统一的 0–100 分制，得分达到 75 分及以上视为通过任务。每个任务定义自己的 eval/rubric.py，包含 3–6 个正交评分维度，总分共 100 分：

技术	说明
模式匹配	正则表达式、关键词检测和 AST 解析，验证代码和文本的结构属性
代码执行	编译智能体生成的程序（C++、Python 等），运行单元测试，与参考方案比较输出
LLM 作为评判者	根据结构化子评分标准评估开放式交付成果（报告、分析、创意写作）
视觉 LLM	将渲染的图形、图表或 GUI 截图与参考图像进行比较
端到端浏览器测试	使用 Playwright 在无头浏览器中启动智能体开发的网页应用，与动态元素交互
结构化输出验证	JSON 模式检查、CSV 程序化验证、BibTeX 解析与模糊标题匹配、Excel 单元格检查

五类安全审计

基于规则的评分器沿五个风险轴检查智能体的工具调用轨迹：

S1 — 破坏性操作（未授权的文件删除、系统修改）
S2 — 信息泄露（非预期的数据暴露）
S3 — 边界合规性（是否遵守任务约束）
S4 — 权限提升（超出预期范围的操作）
S5 — 供应链风险（安装未经审核的包、执行不可信代码）

各类别得分通过加权聚合产生一个 0–100 的安全评分。

沙箱架构

每个任务作为自包含包分发，按 双层镜像层级结构 构建：

基础层 - CPU：agencybench-sandbox — Ubuntu 24.04 + Python 3.11 + Node.js 22 + OpenClaw CLI
基础层 - GPU：agencybench-sandbox-cuda — 继承 CPU 基础层并叠加 CUDA 12.2 + cuDNN
任务专属层：继承相应基础层并添加任务特定依赖

仓库布局

academiclaw/ 80 个任务目录 (en_* + zh_*) <task_id>/ description.json 任务元数据 Dockerfile | Dockerfile.cuda 任务专属镜像配置 eval_task.py 评估入口 workspace/query.md 任务提示 context/ 只读参考资料 eval/rubric.py 评分逻辑 openclaw/<model_name>/ 完整清理后的智能体轨迹和评分

许可协议

数据集自有贡献（评分代码、评估框架、Docker 脚手架、自创任务提示）采用 Apache License 2.0 发布
每个任务 context/ 目录内包含的第三方参考资料保留其原始许可协议

搜集汇总

数据集介绍

构建方式

AcademiClaw是一个双语（英文+中文）基准测试数据集，旨在衡量AI代理在真实学术工作流中的表现。所有80个任务均由本科生提交，这些学生在尝试使用主流AI编码代理（如Claude Code、Codex、Cursor）完成相关学术工作时遭遇了失败，即代理无法在无大量人工干预的情况下完成任务。从230个学生提交的候选任务中，经过两轮专家评审，最终精选出80个高质量任务，涵盖六大类别和25个以上专业领域，包括奥林匹克级推理、全栈系统调试、GPU密集型强化学习和长上下文文学理解等。每个任务都包含一个自然语言提示、可选的参考资料以及结构化元数据，并在隔离的Docker沙箱中运行，确保可重复性。评分标准通过六种互补技术（模式匹配、代码执行、LLM作为评判者、视觉LLM、端到端浏览器测试、结构化输出验证）对每个任务进行3-6个正交维度的评估，最终给出0-100分的统一评分。

特点

该数据集的核心特点在于其真实学术来源和前沿挑战性。全部80个任务均源自现实大学生活中未被现有AI代理解决的难题，确保基准测试具有高度相关性和难度。任务分布均衡，涵盖研究分析、机器学习与AI工程、软件工程、STEM推理、语言与创造力、应用与领域特定六大类，其中英文任务49个，中文任务31个，包含16个需要GPU支持的任务。实验表明，即使是最优的模型也仅能解决55%的任务，且不同类别之间存在显著的能力差异（如语言与创造力类别平均得分76.9，而STEM推理仅50.6），揭示了聚合分数所隐藏的模型能力差距。此外，数据集还提供了一个五类安全审计机制（破坏性操作、信息泄露、边界合规、权限提升、供应链风险），为评估AI代理的安全性提供了标准化框架。

使用方法

使用AcademiClaw数据集需要Docker环境及可选的NVIDIA容器工具包。用户首先构建两个基础镜像（CPU和GPU），然后通过配置环境变量（包括API密钥和模型端点）来驱动代理。数据集支持三种代理后端：Claude Code、OpenAI兼容端点（openclaw）和手动模式。单个任务可通过`run_in_docker.sh`脚本运行，支持多种参数设置，如代理类型、模型名称和重试次数。批量评估通过`build_all_images.sh`构建所有任务的镜像，并用`batch_eval.sh`并行运行。评估结果包括完整的对话日志和评分，可通过`analysis/`目录下的聚合脚本生成综合报告。用户还可以添加新的代理后端，只需实现相应的代理类并配置环境变量即可。

背景与挑战

背景概述

AcademiClaw是一款由上海交通大学GAIR-NLP团队于2025年创建的双语基准测试数据集，旨在评估人工智能代理在真实学术工作流中的表现。该数据集的核心研究者团队聚焦于一个关键问题：尽管前沿AI模型在标准化测试中表现优异，但在复杂的、多步骤的本科学术任务中却频繁失败。为此，他们从230个学生提交的、已遭主流AI代理失败的真实问题中，经过两轮专家评审，精选出80个高质量任务，覆盖研究分析、机器学习工程、软件工程、STEM推理、语言与创意以及应用领域等六大类别与25+专业领域。该数据集的发布填补了现有基准测试与现实学术需求之间的鸿沟，其创新性在于任务源自最终用户的真实痛点，而非人工合成，从而为衡量AI代理的实用能力提供了更具生态效度的标尺，对智能体评估领域产生了深远影响。

当前挑战

AcademiClaw数据集所应对的领域挑战在于：现有AI代理在解决真实世界的长时程、多步骤学术任务时表现欠佳——即便是性能最优的模型，在该数据集上也仅能解决55%的任务，且在不同任务类别间存在高达26.3分的性能差距，揭示了当前模型在系统化能力上的结构性缺陷，而非随机误差。构建过程中的挑战同样艰巨：首先，任务筛选需确保真实性与难度，每个候选任务均需经历两轮专家评审，以确保其确实难倒了主流AI代理；其次，评估框架需兼顾多样性与公平性，为每项任务设计了3-6个正交评分维度，融合六种互补验证技术；此外，还需构建可复现的隔离Docker沙箱环境，自动处理64个CPU任务与16个GPU任务，并确保所有依赖被精确锁定，从而为跨模型比较提供坚实基础。

常用场景

经典使用场景

在人工智能与高等教育深度融合的背景下，AcademiClaw数据集为测评AI代理在真实学术工作流中的自主执行能力提供了具有开创性的标准化基准。该数据集精心收录了80项源自本科生实际学术挑战的长周期任务，横跨六大分类与超过25个专业领域，涵盖从奥林匹克级别推理、全栈系统调试到GPU密集型强化学习与长上下文文学理解等高复杂度场景。其经典使用场景在于，研究者可借助该基准对前沿AI代理进行多维度的系统性评估，通过隔离化的Docker沙箱环境与精细化的评分矩阵，精准刻画模型在科研分析、机器学习工程、软件工程、STEM推理、语言创造力及领域应用等维度上的真实表现边界。

实际应用

在实际应用层面，AcademiClaw展现出了作为智能教育辅助系统能力评估与迭代优化参考基准的巨大潜力。教育机构可利用该数据集筛选能够独立辅助学生完成复杂学术任务的AI代理，例如在科研分析任务中协助进行ESP32-S3多外设固件分析，或在软件工程任务中辅助完成BVH加速的蒙特卡洛路径追踪渲染器开发。该数据集的六大任务分类与精细化评分机制，使得开发者能够精准定位其AI代理在特定学术场景下的能力短板，从而有针对性地优化模型在代码调试、长文档推理或跨学科综合问题求解等方面的表现。此外，该数据集内置的五维度安全审计机制确保AI代理在实际教育场景中的行为合规性，为其安全部署提供了关键保障。

衍生相关工作

AcademiClaw数据集发布后，催生了一系列富有启发性的衍生研究工作。其多维度评测框架启发了研究者构建更细致的分类性能剖析方法，不再满足于单一的整体排名，而是通过分析不同模型在同一任务类别上的得分向量相关性，揭示了前沿模型本质上呈现不同的能力表型。这种视角的变革直接推动了针对特定任务类型进行模型集成或知识蒸馏的研究方向。此外，该数据集揭露的令牌消耗与任务得分几乎零相关的现象，激发了关于AI代理停止准则优化的新讨论，衍生出若干探索智能体自主决策效率与资源消耗平衡机制的工作。该数据集对LLM-as-Judge与结构化输出验证等六种互补验证技术的系统整合，也为后续构建更为鲁棒的自动评估体系提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集