SWE-Skills-Bench

github2026-04-06 更新2026-03-27 收录

下载链接：

https://github.com/GeniusHTX/SWE-Skills-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Skills-Bench包含49个真实世界的软件工程任务，每个任务都配有精心挑选的技能文档。该数据集旨在评估为代理提供特定领域的知识（技能）是否能显著提高其完成任务的能力。

SWE-Skills-Bench includes 49 real-world software engineering tasks, each paired with carefully curated skill documentation. The core objective of this dataset is to assess whether equipping AI Agents with domain-specific knowledge (skills) can substantially enhance their task completion performance.

创建时间：

2026-03-16

原始信息汇总

SWE-Skills-Bench 数据集概述

数据集简介

SWE-Skills-Bench 是一个用于评估注入技能文档是否提升智能体在真实世界软件工程任务上性能的基准数据集。该数据集包含 49 个真实世界软件工程任务，每个任务都配有精心策划的技能文档，旨在测试为智能体提供领域特定知识（即“技能”）是否能显著提高其完成任务的能力。核心研究问题是：为智能体提供技能文档是否真的有效？

数据集内容

任务数量：49 个
任务类型：真实世界软件工程任务
核心组件：每个任务包含任务提示和对应的技能文档
数据特征：包含 skill_id、name、description、type、task_prompt、skill_document、test_code、repo_url、repo_commit、docker_image 等字段

任务列表

Skill ID	任务名称
`add-uint-support`	Add UInt Support
`fix`	React Code Fix & Linter
`tdd-workflow`	TDD Workflow
`security-review`	Security Review
`springboot-tdd`	Spring Boot TDD
`add-admin-api-endpoint`	Ghost Admin API Endpoint Creator
`mcp-builder`	MCP Server Builder
`python-resilience`	Python Resilience Patterns
`xlsx`	Excel & Spreadsheet Automation
`turborepo`	Turborepo Monorepo Build System
`github-actions-templates`	GitHub Actions Templates
`analytics-events`	Metabase Frontend Analytics Events
`prometheus-configuration`	Prometheus Configuration
`python-anti-patterns`	Python Anti-Pattern Review
`implementing-jsc-classes-zig`	Bun Zig-JS Class Generator
`add-malli-schemas`	Metabase Malli Schema Architect
`clojure-write`	Clojure Development & REPL Workflow
`django-patterns`	Django Architecture Patterns
`python-background-jobs`	Python Background Jobs
`python-configuration`	Python Configuration Management
`creating-financial-models`	Financial Modeling Suite
`prompt-engineering-patterns`	Prompt Engineering Patterns
`risk-metrics-calculation`	Risk Metrics Calculation
`vector-index-tuning`	Vector Index Tuning
`rag-implementation`	RAG Implementation Framework
`spark-optimization`	Spark Optimization
`similarity-search-patterns`	Similarity Search Patterns
`llm-evaluation`	LLM Evaluation
`analyze-ci`	CI Failure Analyzer
`python-packaging`	Python Packaging & Distribution
`gitops-workflow`	GitOps Workflow for Kubernetes
`linkerd-patterns`	Linkerd Service Mesh Patterns
`changelog-automation`	Changelog Automation
`k8s-manifest-generator`	Kubernetes Manifest Generator
`nx-workspace-patterns`	Nx Workspace Patterns
`bazel-build-optimization`	Bazel Build Optimization
`istio-traffic-management`	Istio Traffic Management
`bash-defensive-patterns`	Bash Defensive Patterns
`gitlab-ci-patterns`	GitLab CI Patterns
`implementing-agent-modes`	PostHog Agent Mode Architect
`python-observability`	Python Observability Patterns
`distributed-tracing`	Distributed Tracing & Observability
`service-mesh-observability`	Service Mesh Observability
`slo-implementation`	SLO Implementation Framework
`python-performance-optimization`	Python Performance Optimizer
`grafana-dashboards`	Grafana Dashboards
`dbt-transformation-patterns`	dbt Transformation Patterns
`langsmith-fetch`	LangSmith Fetch
`v3-performance-optimization`	V3 Performance Optimization

使用方式

选项 A：通过 HuggingFace 加载（快速访问）

bash pip install datasets

python from datasets import load_dataset ds = load_dataset("GeniusHTX/SWE-Skills-Bench", split="train")

选项 B：运行完整评估框架

该框架自动化完整流程：Docker 容器设置、容器内智能体执行、测试评估和报告生成。

系统要求：

Python 3.8+
Docker（本地运行）
Claude Code CLI（容器镜像内可用，无需本地安装）
Anthropic API 密钥

评估流程：

安装和配置环境
配置模型（通过修改 .claude/settings.json）
验证设置
评估所有 49 个技能
生成汇总指标

输出目录：

reports/compare/：通过率对比表（有技能 vs 无技能，差异值）
reports/failed_test/：每个任务的失败测试列表和重叠分析
reports/token_and_duration/：按任务和组划分的令牌计数和持续时间

技术信息

编程语言：Python 3.8+
依赖项：Docker（必需）
许可证：MIT

数据获取

HuggingFace 地址：https://huggingface.co/datasets/GeniusHTX/SWE-Skills-Bench
GitHub 仓库：https://github.com/GeniusHTX/SWE-Skills-Bench

搜集汇总

数据集介绍

构建方式

在软件工程智能体评估领域，SWE-Skills-Bench数据集通过精心设计实现了对真实世界任务的系统化覆盖。该数据集构建了49项涵盖不同技术栈与工程场景的实际任务，每项任务均与经过人工筛选的技能文档配对。这些任务源自开源项目的真实代码库，确保了评估场景的实践性与代表性。数据收集过程注重任务多样性，覆盖了前端开发、后端架构、DevOps、数据工程及机器学习运维等多个关键方向，并通过统一的Docker容器环境封装了完整的代码上下文与测试用例，为可控的自动化评估奠定了坚实基础。

特点

该数据集的核心特征在于其面向技能文档注入效果的评估导向，专门用于检验领域知识对智能体任务完成能力的量化提升。每个任务单元均包含清晰的任务提示、对应的技能文档、可执行的测试代码以及完整的代码仓库快照，形成了端到端的评估闭环。数据集在设计上强调了实验的对比性，支持在有技能文档与无技能文档两种条件下运行智能体，从而能够精确测量知识注入带来的性能差异。此外，数据集提供了标准化的评估框架，自动化处理容器部署、代码执行与结果验证，显著降低了评估过程的工程复杂度。

使用方法

研究人员可通过HuggingFace平台快速加载数据集以进行离线分析，或利用其内置的完整评估框架进行自动化实验。使用框架时，需预先配置Python环境、Docker服务及相应的API凭证。通过运行专用脚本，可启动控制组与实验组的对比测试，系统将在隔离的容器环境中执行智能体任务并自动运行单元测试以验证结果。评估完成后，配套的分析脚本能够生成详细的性能报告，包括测试通过率对比、失败用例分析以及资源消耗统计，所有输出结果均以结构化的文件形式保存，便于进一步的量化研究与可视化呈现。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，智能体（Agent）的自主编程能力评估成为研究热点。SWE-Skills-Bench数据集由GeniusHTX团队创建，旨在系统性地探究领域知识注入对智能体解决真实世界软件工程任务的影响。该数据集精心设计了49项涵盖软件开发全周期的实际任务，并配套了经过人工筛选的技能文档（Skill Document），核心研究问题聚焦于验证外部知识注入是否能够显著提升智能体的任务完成效能。通过构建标准化的评估框架，该数据集为衡量智能体在复杂工程环境中的适应性提供了重要基准，推动了自动化编程助手与AI驱动开发工具的研究进展。

当前挑战

该数据集旨在解决的领域挑战在于评估智能体在获取外部结构化知识后，其解决多样化、专业化软件工程任务的能力提升效果，这直接关联到智能体在实际开发场景中的实用性与可靠性。在构建过程中，挑战主要体现在任务选取与技能文档的协同设计上：需要确保每个任务具备真实的工程代表性，同时技能文档需精准覆盖任务所需的核心知识，避免信息冗余或缺失。此外，评估框架需在隔离的Docker环境中复现真实开发流程，并设计自动化测试以客观衡量任务完成度，这对系统稳定性和评估指标的严谨性提出了较高要求。

常用场景

经典使用场景

在软件工程智能体研究领域，SWE-Skills-Bench数据集为评估技能文档注入对智能体任务执行效能的影响提供了标准化测试平台。该数据集精心设计了49个真实世界的软件工程任务，覆盖了从代码修复、测试驱动开发到系统配置优化等多个专业场景。研究者通过对比智能体在接收领域特定技能文档前后的表现，能够量化知识增强对任务完成质量的提升幅度，从而验证外部知识注入在复杂工程环境中的实际效用。

解决学术问题

该数据集有效解决了智能体能力评估中缺乏标准化真实任务环境的学术难题。传统评估多依赖合成或简化任务，难以反映实际软件工程的复杂性。SWE-Skills-Bench通过提供包含完整代码库、测试套件和Docker环境的真实任务，使研究者能够精确测量技能文档对智能体在代码生成、系统调试、架构设计等核心工程能力的影响。这为建立软件工程智能体的科学评估体系提供了关键基础设施，推动了智能体能力评估从定性描述向定量分析的范式转变。

衍生相关工作

基于该数据集衍生的研究已形成多个经典方向。在评估方法论层面，研究者开发了跨任务泛化能力分析框架，探究技能文档的可迁移性特征。在智能体架构设计方面，涌现出动态技能检索机制与分层知识融合模型，显著提升了智能体对多领域文档的协同利用效率。部分工作进一步扩展了评估维度，将代码风格一致性、安全漏洞检测等质量属性纳入评估体系，形成了更全面的智能体能力画像。这些衍生工作共同推动了软件工程智能体从任务执行工具向知识协同伙伴的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集