SkillGenBench
收藏数据集概述:SkillGenBench
SkillGenBench 是一个用于评估 技能生成流水线(Skill Generation Pipelines) 的基准测试数据集,依托统一且受控的协议进行。给定原始语料(代码仓库或文档),生成器产出标准化的技能工件(SKILL.md),随后在固定的测试框架下执行,并使用统一的评估流程进行评测。
核心特性
- 任务规模:共包含 187 个任务,覆盖 3 种来源类型。
- 任务来源分布:
- 代码仓库(Code Repo):123 个任务
- 代码文档(Code Doc):28 个任务
- 领域知识文档(Domain Knowledge Doc):36 个任务
- 生成模式:支持两种生成机制:
- 任务条件生成(Task-conditioned):生成特定于任务的技能。
- 任务无关生成(Task-agnostic):生成可复用的技能库。
- 评估方式:通过容器化执行进行确定性评估,基于执行结果进行验证。
流水线概述
data_source/ --> baseline/<method>/generate_skill.py --> generated_skills/<method>/ (标准化输入) (技能生成器) (SKILL.md + meta.json) | v scripts/run_eval.py (基于 Docker 的评估) | v results/
快速开始
环境准备
- 构建 Docker 评估镜像(一次性操作):
bash docker/build_claude_images.sh - 拉取评估仓库(一次性操作,可能需要较长时间):
bash scripts/pre_repos_and_verify.sh
设置 API 凭证 bash export BASE_URL="https://api.openai.com/v1" export API_KEY="sk-your-key-here" export MODEL_NAME="gpt-4o"
运行流水线
- 快速测试(针对少数任务进行生成与评估):
bash scripts/run_test.sh - 批量生成技能(使用
naive_prompt基线,最多并行 20 个):bash scripts/run_all_generate.sh --only naive_prompt --max-parallel 20 - 批量评估生成的技能(使用
naive_prompt基线,最多并行 20 个,每个任务评估 3 次):bash scripts/run_all_eval.sh --only naive_prompt --max-parallel 20 --trials 3
单任务运行示例
- 生成技能:
python3 baseline/naive_prompt/generate_skill.py --task-id scikitimage-task-001 --source code_doc - 评估技能:
python3 scripts/run_eval.py --task-id scikitimage-task-001 --source code_doc --skill-method naive_prompt --trials 3
添加自定义基线
用户可通过创建 baseline/<your_method>/generate_skill.py 来添加自己的方法。脚本需从 data_source/ 读取数据,并将结果写入 generated_skills/<your_method>/,每个任务至少输出一个 SKILL.md 文件。参考实现详见 baseline/naive_prompt/generate_skill.py。
输出格式
generated_skills/<method>/<model>/<run_id>/<source>/<collection>/tasks/<task_id>/ SKILL.md # 必需:技能内容,包含 YAML 前置元数据 meta.json # 推荐:生成元数据
SKILL.md 格式示例:
name: "Skill Name" description: "What this skill does"
Skill content here...
仓库结构
SkillGenBench/ ├── data_source/ # 标准化任务输入(187 个任务) │ ├── code_repo/ # 代码仓库任务(123 个) │ ├── code_doc/ # 代码文档任务(28 个) │ └── domain_knowledge_doc/ # 领域知识文档任务(36 个) ├── skill_evaluation/ # 评估框架(187 个任务) ├── scripts/ # 流水线脚本及 Shell 编排 │ ├── pipeline.py # 主协调器 │ ├── run_eval.py # 评估运行器 │ ├── run_all_generate.sh # 批量技能生成 │ ├── run_all_eval.sh # 批量评估 │ └── ... # 辅助模块 ├── baseline/ # 基线实现 │ ├── _shared/ # 共享基础设施 │ └── naive_prompt/ # 示例:单提示基线 └── docker/ # 评估用 Docker 镜像
许可
待定(TBD)。

- 1SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents上海交通大学; 西安交通大学; 新加坡国立大学; QuantaAlpha; 清华大学; 上海财经大学; 南洋理工大学; 北京大学; 中国科学院大学 · 2026年



