SkillArena-datasets
收藏SkillArena Offline Datasets 数据集概述
基本信息
- 数据集名称: SkillArena Offline Datasets
- 许可协议: MIT License
- 任务类别: 文本生成、问答
- 语言: 英语
- 标签: 基准测试、AI智能体、技能评估、代码生成、文档处理、NeurIPS-2026
- 数据集规模: 1K<n<10K
- 总大小: ~16 MB
数据集概述
本数据集为SkillArena(一个针对AI智能体技能的、经过验证的自动基准测试生成框架)提供离线评估数据,目标为NeurIPS 2026 Datasets & Benchmarks Track。它为281项AI智能体技能提供特定领域的输入数据,用于SkillArena的10阶段评估流程,以自动生成经过验证的评估任务、评分器和试点测试。
核心统计
- 技能总数: 281 (16项原始技能 + 65项社区技能 + 200项新社区技能)
- 文件总数: 2,810
- 每项技能文件数: 10
- 文件格式: 28种类型(包括md、json、yaml、csv、py、js、html、pdf、docx、pptx、xlsx等)
数据集结构
数据集目录结构如下:
skillarena-datasets/ ├── original-skills/ # 16项核心技能(已通过完整流程验证) │ ├── pdf/ # 10个文件:PDF、提取配置 │ ├── xlsx/ # 10个文件:电子表格、CSV数据 │ ├── frontend-design/ # 10个文件:HTML、CSS、JS、设计规范 │ ├── mcp-builder/ # 10个文件:MCP服务器规范、协议示例 │ └── ... # 其余12项原始技能 ├── skills/ # 65项社区贡献技能 │ ├── grafana-dashboards/ # 10个文件:仪表板配置、指标查询 │ ├── scikit-learn/ # 10个文件:机器学习数据集、模型配置 │ ├── react-state-management/ # 10个文件:Redux存储、组件状态 │ └── ... # 其余62项社区技能 └── index.json # 包含文件元数据的数据集索引
原始技能详情
16项原始技能已通过完整的SkillArena流程验证并附有质量报告:
| 技能 | 领域 | 质量分数 | 文件数 |
|---|---|---|---|
| frontend-design | 前端/用户界面 | 9.95/10 | 10 |
| theme-factory | 设计系统 | 9.95/10 | 10 |
| web-artifacts-builder | Web开发 | 9.95/10 | 10 |
| webapp-testing | 测试 | 9.84/10 | 10 |
| mcp-builder | MCP协议 | 9.44/10 | 10 |
| algorithmic-art | 创意编程 | 9.43/10 | 10 |
| canvas-design | 视觉设计 | 9.42/10 | 10 |
| internal-comms | 通信 | 9.41/10 | 10 |
| slack-gif-creator | 动画 | 9.41/10 | 10 |
| brand-guidelines | 品牌设计 | 9.41/10 | 10 |
| doc-coauthoring | 文档 | 9.38/10 | 10 |
| skill-creator | 元技能 | 9.37/10 | 10 |
| pptx | 演示文稿 | 8.60/10 | 10 |
| docx | 文档 | 7.86/10 | 10 |
| PDF处理 | 7.36/10 | 10 | |
| xlsx | 电子表格 | 7.17/10 | 10 |
平均质量分数: 9.12/10 验证通过率: 100% (162/162 任务)
社区技能领域覆盖
65项社区技能涵盖多个领域,包括:
- 机器学习/数据科学: scikit-learn, statsmodels, dask, umap-learn, sparse-autoencoder-training, unsloth, model-pruning, dspy
- DevOps/基础设施: grafana-dashboards, prometheus-configuration, kafka-producer-consumer, chaos-engineer, deployment-pipeline-design
- 前端/用户界面: react-state-management, nextjs-app-router-patterns, tailwind-design-system, screenshot-to-code, accessibility-auditor
- 后端: nodejs-backend-patterns, database-schema-designer, redis-cache-manager, rabbitmq-queue-setup
- 安全: secret-scanner, jwt-token-validator, threat-mitigation-mapping, attack-tree-construction
- 文档/规划: technical-writer, runbook-creator, migration-guide-creator, sprint-planning-helper
文件类型分布
| 格式 | 数量 | 描述 |
|---|---|---|
| Markdown (.md) | 223 | 文档、规范、指南 |
| JSON (.json) | 152 | 配置、模式、数据 |
| YAML (.yaml/.yml) | 161 | 配置、流水线、规范 |
| CSV (.csv) | 95 | 数据集、指标、日志 |
| Python (.py) | 73 | 代码示例、脚本 |
| JavaScript/TypeScript (.js/.ts/.tsx) | 31 | 前端代码、组件 |
| PDF (.pdf) | 12 | 包含表格、表单的文档 |
| HTML (.html) | 11 | 网页、模板 |
| 其他 | 52 | SQL、Terraform、DOT、DOCX、PPTX、XLSX等 |
使用方式
在SkillArena流程中,本数据集在数据生成阶段被使用。DataAcquisitionAgent将其作为其8个提供者链中的第一个数据源读取文件。具体使用方式可参考提供的Python代码示例。
质量保证
- 所有文件均经过格式正确性和最小大小(500+字节)验证。
- 针对每项技能的SKILL.md规范验证了领域相关性。
- 原始技能已通过完整的10阶段流程验证(100%通过率)。
- 通用/不相关数据(如Iris.csv、随机parquet文件)已被系统移除。
引用
bibtex @inproceedings{liu2026skillarena, title={SkillArena: Validated Automatic Benchmark Generation for AI Agent Skills}, author={Liu, Jiaqi}, booktitle={NeurIPS 2026 Datasets and Benchmarks Track}, year={2026} }



