SkillGenBench

Name: SkillGenBench
Creator: 上海交通大学; 西安交通大学; 新加坡国立大学; QuantaAlpha; 清华大学; 上海财经大学; 南洋理工大学; 北京大学; 中国科学院大学
Published: 2026-05-19 01:28:36
License: 暂无描述

arXiv2026-05-19 更新2026-05-20 收录

下载链接：

https://github.com/QuantaAlpha/SkillGenBench

下载链接

链接失效反馈

官方服务：

资源简介：

SkillGenBench是由QuantaAlpha等机构联合构建的基准数据集，旨在系统评估大语言模型从复杂原始语料中蒸馏可部署、可重用技能的能力。该数据集包含187个任务实例，涵盖代码仓库和长文本文档两种知识来源，数据通过知识图谱构建、场景生成和多阶段验证流程精心筛选而成。其创建过程强调从分布式代码结构或分散文本约束中提取程序性知识，并封装为标准化的技能工件。该数据集主要应用于智能体系统领域，用于解决技能生成管道作为独立研究模块的评估问题，衡量模型在任务条件生成与任务不可知生成两种机制下的程序蒸馏与跨任务复用效能。

提供机构：

上海交通大学; 西安交通大学; 新加坡国立大学; QuantaAlpha; 清华大学; 上海财经大学; 南洋理工大学; 北京大学; 中国科学院大学

创建时间：

2026-05-19

原始信息汇总

数据集概述：SkillGenBench

SkillGenBench 是一个用于评估 技能生成流水线（Skill Generation Pipelines） 的基准测试数据集，依托统一且受控的协议进行。给定原始语料（代码仓库或文档），生成器产出标准化的技能工件（SKILL.md），随后在固定的测试框架下执行，并使用统一的评估流程进行评测。

核心特性

任务规模：共包含 187 个任务，覆盖 3 种来源类型。
任务来源分布：
- 代码仓库（Code Repo）：123 个任务
- 代码文档（Code Doc）：28 个任务
- 领域知识文档（Domain Knowledge Doc）：36 个任务
生成模式：支持两种生成机制：
- 任务条件生成（Task-conditioned）：生成特定于任务的技能。
- 任务无关生成（Task-agnostic）：生成可复用的技能库。
评估方式：通过容器化执行进行确定性评估，基于执行结果进行验证。

流水线概述

data_source/ --> baseline/<method>/generate_skill.py --> generated_skills/<method>/ (标准化输入) (技能生成器) (SKILL.md + meta.json) | v scripts/run_eval.py (基于 Docker 的评估) | v results/

快速开始

环境准备

构建 Docker 评估镜像（一次性操作）：bash docker/build_claude_images.sh
拉取评估仓库（一次性操作，可能需要较长时间）：bash scripts/pre_repos_and_verify.sh

设置 API 凭证 bash export BASE_URL="https://api.openai.com/v1" export API_KEY="sk-your-key-here" export MODEL_NAME="gpt-4o"

运行流水线

快速测试（针对少数任务进行生成与评估）：bash scripts/run_test.sh
批量生成技能（使用 naive_prompt 基线，最多并行 20 个）：bash scripts/run_all_generate.sh --only naive_prompt --max-parallel 20
批量评估生成的技能（使用 naive_prompt 基线，最多并行 20 个，每个任务评估 3 次）：bash scripts/run_all_eval.sh --only naive_prompt --max-parallel 20 --trials 3

单任务运行示例

生成技能：python3 baseline/naive_prompt/generate_skill.py --task-id scikitimage-task-001 --source code_doc
评估技能：python3 scripts/run_eval.py --task-id scikitimage-task-001 --source code_doc --skill-method naive_prompt --trials 3

添加自定义基线

用户可通过创建 baseline/<your_method>/generate_skill.py 来添加自己的方法。脚本需从 data_source/ 读取数据，并将结果写入 generated_skills/<your_method>/，每个任务至少输出一个 SKILL.md 文件。参考实现详见 baseline/naive_prompt/generate_skill.py。

输出格式

generated_skills/<method>/<model>/<run_id>/<source>/<collection>/tasks/<task_id>/ SKILL.md # 必需：技能内容，包含 YAML 前置元数据 meta.json # 推荐：生成元数据

`SKILL.md` 格式示例：

name: "Skill Name" description: "What this skill does"

Skill content here...

仓库结构

SkillGenBench/ ├── data_source/ # 标准化任务输入（187 个任务） │ ├── code_repo/ # 代码仓库任务（123 个） │ ├── code_doc/ # 代码文档任务（28 个） │ └── domain_knowledge_doc/ # 领域知识文档任务（36 个） ├── skill_evaluation/ # 评估框架（187 个任务） ├── scripts/ # 流水线脚本及 Shell 编排 │ ├── pipeline.py # 主协调器 │ ├── run_eval.py # 评估运行器 │ ├── run_all_generate.sh # 批量技能生成 │ ├── run_all_eval.sh # 批量评估 │ └── ... # 辅助模块 ├── baseline/ # 基线实现 │ ├── _shared/ # 共享基础设施 │ └── naive_prompt/ # 示例：单提示基线 └── docker/ # 评估用 Docker 镜像

许可

待定（TBD）。

搜集汇总

数据集介绍

构建方式

SkillGenBench的构建遵循一条系统化的五阶段流水线。首先，从固定提交点的代码仓库快照和长篇文档束两类源材料出发，构建知识图谱，将原始语料抽象为实体-关系三元组与上下文摘要。随后，基于图谱生成涵盖代码开发、工作流执行和规则推理等多种形式的候选场景，每个场景进一步衍生出任务规范与覆盖常规、边界及对抗输入的测试用例。为确保难度适中，设计了两阶段验证：先剔除仅凭参数知识即可解答的平庸任务，再移除即便借助参考技能也无法完成的过难样本，最终通过人工审核确保每个实例的清晰度、覆盖范围与评估可行性。

特点

该基准测试的突出特点在于将技能生成本身作为独立评估对象，而非与下游执行能力混杂。它涵盖两种互补的生成范式：任务条件式生成，即模型在知晓具体任务后合成针对性技能；任务无关式生成，要求模型在未知下游任务的情况下蒸馏出一套可复用的技能库。源材料的双轨设计同样别具匠心，代码仓库型实例考验从分散的目录结构、配置脚本与运行约定中恢复隐式流程的能力，而文档型实例则要求从长篇文本中整合显式但分散的约束条件。评估体系以确定性执行检查为核心，辅以基于相似度和裁判模型的诊断信号，实现了结构性完备性与执行性正确性的分离测量。

使用方法

使用SkillGenBench时，研究者需为生成器提供原始语料与任务规范（任务无关设置下仅提供语料），生成标准化的技能工件（SKILL.md包及其附属资源）。随后，在固定执行框架下，由独立的执行器加载该技能并完成下游任务，通过实例专用的验证器判定成败。实验表明，该方法能有效隔离技能生成质量与下游执行策略的耦合效应。分析流程分为动态执行与静态诊断两个层次：动态层面以pass@3为指标报告任务成功率；静态层面通过八项自动规则检查评估技能包的结构质量，涵盖接口契约、环境配置、过程覆盖与安全性等维度。值得注意的是，技能生成的优劣高度依赖于生成方法、骨干模型与源材料类型三者间的交互，研究者可根据具体分析需求灵活切换不同配置。

背景与挑战

背景概述

SkillGenBench由上海交通大学、西安交通大学、新加坡国立大学及QuantaAlpha等机构的研究人员于2026年5月联合创建，聚焦于评估大语言模型智能体从软件仓库与长文档中生成可复用、可执行技能的能力。随着智能体系统逐渐从单一提示转向模块化、持久化的能力抽象，技能作为封装过程性知识的制品已成为构建可扩展智能体的关键基座。然而，现有基准大多评测给定技能的执行效能或智能体的端到端任务解决能力，鲜有将技能生成本身作为独立研究对象。SkillGenBench填补了这一空白，通过统一协议分离技能生成与下游执行，建立了可复现的比较框架，对智能体系统的模块化发展具有重要推动作用。

当前挑战

技能生成面临的挑战兼具领域问题复杂性及构建过程艰巨性。在领域层面，技能生成需从分布式代码、配置与脚本中恢复隐式执行结构，或从长文本中提炼分散的约束与流程，这远超传统图像分类或问答任务的难度；尤其是仓库型任务，模型需跨越环境搭建、数据流与命令惯例等多重鸿沟。在基准构建过程中，研究人员需确保任务既不能仅凭预训练知识解决，也不能过于简单或脆弱，须经过无语料、含语料等多轮验证与人工审核，最终从678个候选任务中仅保留187个，接受率仅27.6%，凸显了构建高质量、可验证技能生成基准的严苛挑战。

常用场景

经典使用场景

SkillGenBench的核心使用场景在于系统性地评估大语言模型智能体从原始语料中蒸馏可复用、可执行技能的能力。该基准将技能生成本身作为首要研究对象，通过统一协议分离上游技能生成与下游任务执行，从而精准度量流程到技能的蒸馏质量。具体而言，研究者可借助SkillGenBench对比不同生成管线在两种关键设定下的表现：任务条件生成，即模型在知晓具体任务后合成针对性技能；任务无关生成，即模型必须在未知下游任务的情况下，从语料中提炼出具有跨任务复用价值的技能库。这种双轨设定不仅揭示了技能生成的本质挑战，也为开发更鲁棒的智能体系统提供了标准化的评估平台。

衍生相关工作

SkillGenBench的提出催生了多条重要的研究方向。在方法层面，研究者开始将技能生成作为独立管线进行系统优化，如通过执行反馈进行迭代精炼（Zheng等人, 2025），或从成功轨迹中经验式合并技能（Wang等人, 2026）。在诊断层面，该基准引入的静态与动态联合分析框架，揭示了结构完整性与执行正确性之间的持久鸿沟，推动了技能质量评估从单一准确率向多维诊断（如接口契约、环境准备、规则保真度）的演进。此外，任务无关生成设定直接挑战了当前方法在无任务先验条件下的技能抽象能力，激发了关于跨任务可迁移技能库构建的深入研究，相关成果正逐步应用于可扩展智能体生态系统的建设。

数据集最近研究