five

SkillArena-datasets

收藏
Hugging Face2026-02-27 更新2026-02-28 收录
下载链接:
https://huggingface.co/datasets/JiaaqiLiu/SkillArena-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
SkillArena离线数据集是为AI代理技能评估提供的离线评估数据,专为NeurIPS 2026 Datasets & Benchmarks Track设计。该数据集包含281种AI代理技能的领域特定输入数据,每种技能提供10个经过筛选的数据文件,共计2,810个文件,涵盖28种文件格式(如md、json、yaml、csv、py等)。数据集分为16个原始技能和65个社区贡献技能,原始技能经过完整评估流程验证,平均质量评分为9.12/10。文件类型分布包括Markdown文档、JSON配置、YAML规范、CSV数据等。该数据集用于SkillArena评估流程的数据生成阶段,支持多种AI任务,如文本生成、问答、代码生成和文档处理。数据集经过严格的质量验证,确保文件格式正确性和领域相关性。
创建时间:
2026-02-23
原始信息汇总

SkillArena Offline Datasets 数据集概述

基本信息

  • 数据集名称: SkillArena Offline Datasets
  • 许可协议: MIT License
  • 任务类别: 文本生成、问答
  • 语言: 英语
  • 标签: 基准测试、AI智能体、技能评估、代码生成、文档处理、NeurIPS-2026
  • 数据集规模: 1K<n<10K
  • 总大小: ~16 MB

数据集概述

本数据集为SkillArena(一个针对AI智能体技能的、经过验证的自动基准测试生成框架)提供离线评估数据,目标为NeurIPS 2026 Datasets & Benchmarks Track。它为281项AI智能体技能提供特定领域的输入数据,用于SkillArena的10阶段评估流程,以自动生成经过验证的评估任务、评分器和试点测试。

核心统计

  • 技能总数: 281 (16项原始技能 + 65项社区技能 + 200项新社区技能)
  • 文件总数: 2,810
  • 每项技能文件数: 10
  • 文件格式: 28种类型(包括md、json、yaml、csv、py、js、html、pdf、docx、pptx、xlsx等)

数据集结构

数据集目录结构如下:

skillarena-datasets/ ├── original-skills/ # 16项核心技能(已通过完整流程验证) │ ├── pdf/ # 10个文件:PDF、提取配置 │ ├── xlsx/ # 10个文件:电子表格、CSV数据 │ ├── frontend-design/ # 10个文件:HTML、CSS、JS、设计规范 │ ├── mcp-builder/ # 10个文件:MCP服务器规范、协议示例 │ └── ... # 其余12项原始技能 ├── skills/ # 65项社区贡献技能 │ ├── grafana-dashboards/ # 10个文件:仪表板配置、指标查询 │ ├── scikit-learn/ # 10个文件:机器学习数据集、模型配置 │ ├── react-state-management/ # 10个文件:Redux存储、组件状态 │ └── ... # 其余62项社区技能 └── index.json # 包含文件元数据的数据集索引

原始技能详情

16项原始技能已通过完整的SkillArena流程验证并附有质量报告:

技能 领域 质量分数 文件数
frontend-design 前端/用户界面 9.95/10 10
theme-factory 设计系统 9.95/10 10
web-artifacts-builder Web开发 9.95/10 10
webapp-testing 测试 9.84/10 10
mcp-builder MCP协议 9.44/10 10
algorithmic-art 创意编程 9.43/10 10
canvas-design 视觉设计 9.42/10 10
internal-comms 通信 9.41/10 10
slack-gif-creator 动画 9.41/10 10
brand-guidelines 品牌设计 9.41/10 10
doc-coauthoring 文档 9.38/10 10
skill-creator 元技能 9.37/10 10
pptx 演示文稿 8.60/10 10
docx 文档 7.86/10 10
pdf PDF处理 7.36/10 10
xlsx 电子表格 7.17/10 10

平均质量分数: 9.12/10 验证通过率: 100% (162/162 任务)

社区技能领域覆盖

65项社区技能涵盖多个领域,包括:

  • 机器学习/数据科学: scikit-learn, statsmodels, dask, umap-learn, sparse-autoencoder-training, unsloth, model-pruning, dspy
  • DevOps/基础设施: grafana-dashboards, prometheus-configuration, kafka-producer-consumer, chaos-engineer, deployment-pipeline-design
  • 前端/用户界面: react-state-management, nextjs-app-router-patterns, tailwind-design-system, screenshot-to-code, accessibility-auditor
  • 后端: nodejs-backend-patterns, database-schema-designer, redis-cache-manager, rabbitmq-queue-setup
  • 安全: secret-scanner, jwt-token-validator, threat-mitigation-mapping, attack-tree-construction
  • 文档/规划: technical-writer, runbook-creator, migration-guide-creator, sprint-planning-helper

文件类型分布

格式 数量 描述
Markdown (.md) 223 文档、规范、指南
JSON (.json) 152 配置、模式、数据
YAML (.yaml/.yml) 161 配置、流水线、规范
CSV (.csv) 95 数据集、指标、日志
Python (.py) 73 代码示例、脚本
JavaScript/TypeScript (.js/.ts/.tsx) 31 前端代码、组件
PDF (.pdf) 12 包含表格、表单的文档
HTML (.html) 11 网页、模板
其他 52 SQL、Terraform、DOT、DOCX、PPTX、XLSX等

使用方式

在SkillArena流程中,本数据集在数据生成阶段被使用。DataAcquisitionAgent将其作为其8个提供者链中的第一个数据源读取文件。具体使用方式可参考提供的Python代码示例。

质量保证

  • 所有文件均经过格式正确性和最小大小(500+字节)验证。
  • 针对每项技能的SKILL.md规范验证了领域相关性。
  • 原始技能已通过完整的10阶段流程验证(100%通过率)。
  • 通用/不相关数据(如Iris.csv、随机parquet文件)已被系统移除。

引用

bibtex @inproceedings{liu2026skillarena, title={SkillArena: Validated Automatic Benchmark Generation for AI Agent Skills}, author={Liu, Jiaqi}, booktitle={NeurIPS 2026 Datasets and Benchmarks Track}, year={2026} }

搜集汇总
数据集介绍
构建方式
在人工智能代理技能评估领域,SkillArena离线数据集通过一种高度结构化和可复现的生成方法构建。该数据集覆盖13个专业领域,为289项技能中的每一项均生成了50个经过精心策划的数据文件,总计14,450个文件。生成过程采用确定性算法,每个技能使用基于技能名称哈希值固定的随机种子,确保了跨域数据生成的可复现性。文件格式严格遵循预设的分布比例,包括CSV、JSON、YAML、Markdown和纯文本,每种格式均服务于特定的任务输入场景,例如CSV文件用于表格数据分析,YAML文件用于配置解析。所有生成文件均通过了严格的格式与内容完整性验证,杜绝了源代码泄露等问题,为后续的自动化评估流程提供了坚实可靠的数据基础。
特点
SkillArena数据集的核心特征在于其广泛的专业领域覆盖与高度结构化的任务输入设计。数据集囊括了从自然语言处理、前端开发到生物信息学、量子计算等13个前沿领域,共计289项技能,充分体现了评估框架的广度与深度。每个技能对应的50个输入文件均模拟了真实世界代理可能接收的任务素材,如机器学习训练数据、系统配置文档或分析报告,从而构建出贴近实际应用场景的评估环境。数据集的另一个显著特点是其严格的元数据管理和质量保证,所有文件均附带索引信息,并经过多重验证确保格式有效性与内容一致性。这种设计使得数据集不仅能支持多样化的技能评估,还能确保评估任务生成过程的自动化与标准化。
使用方法
该数据集作为SkillArena十阶段评估流程中“数据获取”环节的核心离线数据源,其使用方法紧密集成于自动化评估框架之内。在生成具体评估任务时,系统的离线数据提供者会依据目标技能名称,定位到对应目录,并按字母顺序选取首个未被使用的文件,将其复制至任务输入目录,作为代理执行任务的起点。数据集通常通过Python代码进行调用,用户需在初始化流程编排器时指定离线数据集的本地路径。这种集成方式使得研究人员能够便捷地将此高质量、多领域的任务输入数据应用于代理技能的基准测试与性能评估中,为衡量AI代理在复杂、专业任务上的实际能力提供了标准化的输入基础。
背景与挑战
背景概述
SkillArena离线数据集作为SkillArena框架的核心组成部分,由研究人员Jiaqi Liu等人构建,旨在为NeurIPS 2026数据集与基准赛道提供支持。该数据集专注于评估人工智能代理在多样化现实任务中的技能表现,涵盖了从自然语言处理、机器学习训练到生物信息学、量子计算等13个专业领域,共计289项技能。通过提供领域特定的任务输入数据,如CSV、JSON、YAML等多种格式文件,数据集为自动生成经过验证的评估任务、评分器及试点测试奠定了坚实基础,推动了智能代理技能评估向标准化、可复现的方向发展。
当前挑战
SkillArena数据集致力于解决人工智能代理技能评估的标准化与可扩展性挑战,其核心在于如何构建一个能够全面、公平地衡量代理在跨领域复杂任务中实际能力的基准。在构建过程中,研究团队面临多重挑战:一是需要确保数据生成的确定性与可复现性,通过基于技能名称哈希的随机种子实现;二是维持数据质量与一致性,要求每个技能包含50个文件,且需通过格式有效性、内容完整性等多重验证;三是避免源代碼泄漏等数据污染问题,确保评估的纯净性;四是平衡领域覆盖的广度与深度,在13个专业领域中合理分配技能与文件类型,以支撑多样化的评估场景。
常用场景
经典使用场景
在人工智能代理技能评估领域,SkillArena-datasets作为离线评估数据的核心资源,其经典使用场景在于为SkillArena框架的十阶段评估流程提供标准化的任务输入。该数据集精心构建了涵盖13个领域的289项技能,每项技能均配备50个结构化的数据文件,包括CSV、JSON、YAML、Markdown和纯文本格式。这些文件模拟了真实世界中的任务输入,例如机器学习训练中的分类数据集、自然语言处理中的链式配置、以及DevOps中的Kubernetes清单。通过确定性的生成方法和领域感知的设计,数据集确保了评估任务的可重复性和领域相关性,为自动化生成经过验证的评估任务、评分器和试点测试奠定了坚实基础。
衍生相关工作
围绕SkillArena-datasets,已衍生出一系列经典的关联工作,主要集中在自动化基准生成与多技能评估框架的拓展上。SkillArena框架本身作为核心工作,构建了包含任务分析、规划、合成、评分、验证及元评估的完整管道。基于该数据集,社区进一步贡献了73项新技能,并扩展了原有的16项核心手工策划技能,形成了涵盖NLP/LLM、前端、生物信息学、量子计算等13个领域的综合技能集合。相关工作还包括对数据生成器的优化、验证流程的增强,以及利用该基准对各类代理模型进行系统性比较研究,这些努力共同推动了AI代理技能评估生态系统的成熟与完善。
数据集最近研究
最新研究方向
在人工智能代理技能评估领域,SkillArena离线数据集正推动着多模态任务自动生成与验证的前沿探索。该数据集通过涵盖13个专业领域的289项技能,为代理在代码生成、文档处理等复杂场景下的能力提供了结构化、可复现的测试基础。当前研究热点聚焦于利用其确定的领域感知生成机制,构建端到端的评估管道,以系统化地量化代理在真实工作流中的泛化性能与鲁棒性。这一努力不仅为NeurIPS 2026基准赛道提供了关键数据支撑,也预示着未来AI代理技能标准化测评向更高自动化与可信度方向演进的重要趋势。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作