AcademiClaw
收藏AcademiClaw 数据集详情
数据集概述
AcademiClaw 是一个中英双语基准测试集,包含 80 个长时程任务,这些任务源自真实的本科生学术工作流程,当前的主流 AI 智能体无法独立完成。每个任务均由一名本科生提交,且该学生已尝试过至少一种主流 AI 编程智能体(如 Claude Code、Codex、Cursor),但发现智能体需要大量人工辅助才能完成任务。
数据集构成
| 维度 | 数量 | 说明 |
|---|---|---|
| 总任务数 | 80 | 从 230 份学生提交的候选任务中,经过两轮专家评审筛选得出 |
| 英文任务 | 49 | 英文原版任务 |
| 中文任务 | 31 | 原生中文任务(如汉语韵律、双拼、中文作文评分标准等),非翻译指令 |
| GPU 任务 | 16 | 需要 CUDA 依赖(训练、渲染或推理) |
| 仅 CPU 任务 | 64 | 无需 GPU |
任务分类与领域
任务覆盖 6 大类别和 25+ 专业领域:
| 类别 | 任务数 | 代表性示例 |
|---|---|---|
| 研究与分析 | 21 | ESP32-S3 多外设固件分析(I2S / I2C / SPI);环境剥离的 F1 车手优势估算 |
| 机器学习与人工智能工程 | 17 | Ascend NPU 多语言 ASR 部署(fairseq2);各向同性 SVD 多任务模型融合(Iso-C / Iso-CTS) |
| 软件工程 | 17 | BVH 加速的蒙特卡洛路径追踪渲染器;混淆载荷解密的应急取证 |
| STEM 推理 | 11 | CMO 2024 证明题;IOL 2025 语言学奥林匹克;约束满足谋杀谜题推理 |
| 语言与创造力 | 7 | 古典诗词现代改编;Funk 音乐风格的 Locking 舞蹈编排与音乐分析 |
| 应用与领域特定 | 7 | 日本麻将向听数与有效牌计算器;多约束旅行行程规划 |
主要结果
模型表现排名
在 6 个前沿模型上的实验结果显示,最优模型也仅能解决 55% 的任务:
| 模型 | 平均得分 | 通过率 (%) | Token/任务 (千) | 工具调用/任务 | 时长 (秒) | 安全评分 |
|---|---|---|---|---|---|---|
| Claude Opus 4.6 | 71.9 | 55.0 | 1,425 | 33 | 673 | 87.4 |
| Claude Sonnet 4.6 | 68.3 | 55.0 | 1,562 | 26 | 662 | 88.7 |
| GPT-5.4 | 65.6 | 42.5 | 525 | 19 | 240 | 87.5 |
| Gemini 3.1 Pro | 64.3 | 43.8 | 2,857 | 57 | 822 | 74.9 |
| Qwen3.5-397B-A17B† | 64.7 | 40.0 | 970 | 26 | — | 80.8 |
| MiniMax M2.7 | 63.1 | 37.5 | 1,663 | 37 | 686 | 86.5 |
关键发现
- 任务类别比模型选择更重要:跨类别的平均分数范围从 76.9(语言与创造力) 到 50.6(STEM 推理),差距达 26.3 分;而跨模型的平均分数范围仅从 71.9(Opus)到 63.1(MiniMax)。在竞赛级任务(如
zh_huaxue_jingsai、en_fullstack_debug)上,所有模型的得分均崩溃至 23–27 分,且方差接近于零,表明存在系统性能力差距。 - 前沿模型具有不同的能力表型:六个模型每任务得分向量的两两 Pearson 相关系数范围从 0.27(GPT-5.4 vs. Gemini)到 0.73(Qwen3.5 vs. MiniMax),差异具有统计学显著性(Fisher z,p = 6.5 × 10⁻⁵),说明它们并非沿单一标量能力轴排列。
- Token 消耗与任务得分基本不相关(汇总 Pearson r = -0.03,p = 0.49),前沿智能体似乎缺乏有效的停止标准。
评估框架
多维度评分标准(六种互补技术)
所有评分标准均采用统一的 0–100 分制,得分达到 75 分及以上视为通过任务。每个任务定义自己的 eval/rubric.py,包含 3–6 个正交评分维度,总分共 100 分:
| 技术 | 说明 |
|---|---|
| 模式匹配 | 正则表达式、关键词检测和 AST 解析,验证代码和文本的结构属性 |
| 代码执行 | 编译智能体生成的程序(C++、Python 等),运行单元测试,与参考方案比较输出 |
| LLM 作为评判者 | 根据结构化子评分标准评估开放式交付成果(报告、分析、创意写作) |
| 视觉 LLM | 将渲染的图形、图表或 GUI 截图与参考图像进行比较 |
| 端到端浏览器测试 | 使用 Playwright 在无头浏览器中启动智能体开发的网页应用,与动态元素交互 |
| 结构化输出验证 | JSON 模式检查、CSV 程序化验证、BibTeX 解析与模糊标题匹配、Excel 单元格检查 |
五类安全审计
基于规则的评分器沿五个风险轴检查智能体的工具调用轨迹:
- S1 — 破坏性操作(未授权的文件删除、系统修改)
- S2 — 信息泄露(非预期的数据暴露)
- S3 — 边界合规性(是否遵守任务约束)
- S4 — 权限提升(超出预期范围的操作)
- S5 — 供应链风险(安装未经审核的包、执行不可信代码)
各类别得分通过加权聚合产生一个 0–100 的安全评分。
沙箱架构
每个任务作为自包含包分发,按 双层镜像层级结构 构建:
- 基础层 - CPU:
agencybench-sandbox— Ubuntu 24.04 + Python 3.11 + Node.js 22 + OpenClaw CLI - 基础层 - GPU:
agencybench-sandbox-cuda— 继承 CPU 基础层并叠加 CUDA 12.2 + cuDNN - 任务专属层:继承相应基础层并添加任务特定依赖
仓库布局
academiclaw/ 80 个任务目录 (en_* + zh_*) <task_id>/ description.json 任务元数据 Dockerfile | Dockerfile.cuda 任务专属镜像配置 eval_task.py 评估入口 workspace/query.md 任务提示 context/ 只读参考资料 eval/rubric.py 评分逻辑 openclaw/<model_name>/ 完整清理后的智能体轨迹和评分
许可协议
- 数据集自有贡献(评分代码、评估框架、Docker 脚手架、自创任务提示)采用 Apache License 2.0 发布
- 每个任务
context/目录内包含的第三方参考资料保留其原始许可协议




