five

ctx

收藏
Hugging Face2026-05-03 更新2026-05-04 收录
下载链接:
https://huggingface.co/datasets/Stevesolun/ctx
下载链接
链接失效反馈
官方服务:
资源简介:
ctx数据集是一个技能、代理、MCP服务器和工具套件的目录,旨在通过分析用户开发活动,推荐最适合当前任务的高价值资源。数据集包含一个由104,079个节点和300万条边组成的知识图谱,涵盖92,815项技能、464个代理、10,787台MCP服务器和13个分类工具套件。数据集提供了预构建的知识图谱、可安装的技能文件(包括90,846个Skills.sh条目和89,461个水合的SKILL.md文件)以及一个包含技能条目、安装命令和语义图边的wiki。用户可以通过命令行工具与数据集交互,如扫描代码库、添加代理或工具套件、检查技能质量等。数据集适用于AI代理开发、技能发现和任务自动化等场景,支持自定义模型和API集成。数据集还包含安全审查警告和图形/wiki更新程序文档,确保使用的安全性和可维护性。
创建时间:
2026-04-30
原始信息汇总

数据集概要

数据集名称:ctx — Skill, Agent, MCP & Harness Catalog
许可证:MIT
数据集地址:https://huggingface.co/datasets/Stevesolun/ctx


核心内容

该数据集是一个技能、代理、MCP服务器和工具框架的编目与推荐系统,核心包含一个预构建的知识图谱,涵盖以下内容:

  • 总计节点:104,079 个
  • 总计边:3,001,708 条(约3.0M)
  • 技能(Skills):92,815 条,其中包含90,846条来自Skills.sh的条目,以及89,461个可安装的SKILL.md文件
  • 代理(Agents):464 个
  • MCP服务器:10,787 个
  • 工具框架(Harnesses):13 个,包括LangGraph、CrewAI、AutoGen、Google ADK、Semantic Kernel、Mastra、Pydantic AI、Haystack、OpenAI Agents SDK、LiteLLM、Langfuse、AgentOps、text-to-cad

数据集用途

  • 发现:帮助用户从大量技能、代理、MCP服务器和框架中发现适合当前任务的高价值项
  • 上下文预算优化:避免加载全部内容浪费token和降低质量,推荐每会话10-15个最相关的项
  • 技能过期检测:自动标记安装后长期未使用的技能

知识图谱构成

预构建的知识图谱以graph/wiki-graph.tar.gz压缩包形式提供,包含:

  • 全部104,079个节点和2,960,215条边的图谱文件
  • 外部目录external-catalogs/skills-sh/catalog.json
  • 90,846个远程编目的Skills.sh技能页(位于entities/skills/skills-sh-*.md
  • 89,461个可安装的Skills.sh SKILL.md文件(位于converted/skills-sh-*/
  • 13个编目的框架页(位于entities/harnesses/

数据更新历史

  • 2026-04-29更新

    • 新增find-skills工作流
    • 添加90,846条Skills.sh条目作为一等远程编目的技能节点
    • 新增13个编目框架
    • 加入安全/网络评论警告
  • 2026-04-27更新

    • 导入mattpocock/skills的21个技能(以mattpocock-前缀部署)
    • 导入designdotmd.directory的156个DESIGN.md文件(以designdotmd-前缀部署)
    • 技能总数从1,791增至1,968(+177)

使用方式

数据集通过Python包claude-ctx提供,安装后可通过以下命令使用:

  • ctx-scan-repo:扫描仓库并生成推荐
  • ctx-skill-quality:评估技能质量
  • ctx-monitor:本地仪表盘查看加载的技能、代理、MCP服务器和框架记录
  • ctx-harness-install:安装、更新或卸载框架

总结

该数据集是一个大规模、多类型的AI开发资源编目库,集成知识图谱、技能推荐和框架管理功能,旨在提升开发者在复杂项目中的工具发现效率和上下文管理能力。

搜集汇总
数据集介绍
main_image_url
构建方式
ctx 数据集精心构建了一个规模宏大的知识图谱,囊括了超过十万个节点与三百万条边,系统性地整合了来自开源社区的 92,815 项技能、464 个智能代理、10,787 个 MCP 服务器以及 13 种编组框架。其构建过程融合了多源数据摄取与语义图技术,不仅收纳了 Skills.sh 平台的近九万余条技能条目,并为其生成了可直接安装的 SKILL.md 文件,还引入了来自特定仓库的精选技能和设计资源。该数据集通过预编译的知识图谱压缩包形式发布,用户只需将其解压至指定目录即可获得一个完整的技能百科,极大地方便了后续的智能应用开发。
特点
该数据集最显著的特征在于其卓越的完整性与动态的推荐能力。它不仅提供了海量的、去重且带有语义关联的技能、代理与服务器目录,更通过一个内置的上下文敏感推荐系统,在运行中分析用户的开发环境与工作目标,从庞大的图谱中精准遴选出价值最高的十个左右实体供用户采纳。数据集还集成了丰富的质量评估工具,能够对每个技能进行包含四个信号维度的健康度评分,并自动检测技能的老化与漂移情况,确保推荐内容的时效性与实用性。
使用方法
使用 ctx 数据集的过程无缝衔接到开发工作流中。在初始阶段,通过简单的命令行指令即可完成数据集的安装与上下文钩子的激活。随后,用户可以对当前代码仓库进行扫描,数据集的内核将自动分析代码结构,并生成智能体、MCP 服务器或技能的推荐列表。用户通过一系列高效的指令完成技能的添加、代理的注册与编组的安装,所有这些操作都支持预览与实际执行,便于精细控制。此外,数据集提供了一个本地的监控仪表盘,以可视化方式展示当前已载入的各类实体,并提供灵活的管理接口,使得整个智能体的配置过程变得透明且可控。
背景与挑战
背景概述
在大型语言模型(LLM)与智能体(Agent)技术飞速发展的背景下,如何高效发现、评估并集成海量的技能(Skills)、代理、MCP服务器及开发框架(Harness)成为制约模型应用效能的关键瓶颈。ctx数据集于2026年由Steve Solun团队创建,核心目标是构建一个包含104,079个节点、超过300万条语义边的知识图谱,系统性地整合来自Skills.sh、mattpocock等开源社区的92,815项技能、464个代理、10,787个MCP服务器及13个主流开发框架(如LangGraph、CrewAI)。该数据集通过上下文感知的推荐机制,为Claude Code等LLM工具提供精准的技能与工具配置方案,显著降低了智能体开发中的信息过载与资源浪费问题,对AI工程化与智能体生态标准化具有里程碑式的推动作用。
当前挑战
当前领域面临三重核心挑战:其一,技能与工具的发现困境。面对超过9万项技能及数千个代理与MCP服务器,传统人工筛选或关键词检索无法匹配即时任务需求,导致开发者陷入选择瘫痪与上下文预算浪费(如单次会话仅需10-15项技能,却需遍历庞杂目录)。其二,构建过程中的数据异构与维护难题。数据集整合需同时处理来自不同仓库(如mattpocock/skills、designdotmd.directory)的异源格式,并实现技能去重(如重复提示)、版本追踪与语义对齐(如建立104k节点间的关联边),同时需确保89,461个SKILL.md文件的可安装性与兼容性。其三,技能腐烂(Skill Rot)难以检测。闲置或过时的技能持续侵蚀上下文窗口,自动化标记陈旧技能并触发清理机制的技术尚未成熟,亟需更鲁棒的动态健康监测与漂移检测方案。
常用场景
经典使用场景
ctx数据集为大型语言模型驱动的智能体系统提供了一套完备的技能、智能体与MCP服务器目录,其核心应用场景是动态上下文筛选与推荐。在每一次开发会话中,系统自动扫描当前仓库与任务信号,从跨越92,815个技能节点、464个智能体和10,787个MCP服务器的庞大图谱中,精准推荐最契合当下任务的高价值资产。这种按需加载的机制有效解决了上下文预算的瓶颈问题——避免一次性加载全部内容造成的令牌浪费与输出质量下降,同时自动标记过期或冗余的技能,确保会话始终聚焦于最相关的10至15个组件。开发者通过直观的仪表盘与命令行工具,能够在批准后完成加载、安装或采纳操作,实现了智能体开发中上下文管理的精细化和自动化。
衍生相关工作
围绕ctx数据集已衍生出一系列开创性工作与生态系统。数据集中直接收录了13种经过编目的智能体框架(包括LangGraph、CrewAI、AutoGen、Google ADK、Semantic Kernel等),每个框架都配有独立的工具说明与安装指令,形成了一个可互操作的智能体工具市场。此外,项目引入了来自mattpocock的21个高质量技能(如测试驱动开发、领域建模、通用语言等)以及designdotmd.directory的156个设计规范文件,这些异质资源的统一编目与语义索引展示了跨领域知识图谱的构建范式。基于该数据集开发的`find-skills`工作流、技能质量检测工具`ctx-skill-quality`和结构健康监控模块`ctx-skill-health`,共同构成了一个完整的智能体技能生命周期管理框架,为后续智能体系统评估基准与自动维护策略研究提供了参考实例。
数据集最近研究
最新研究方向
在当前智能体与大规模语言模型协同发展的浪潮中,ctx数据集聚焦于构建一个规模宏大且结构精细的技能、智能体与MCP服务器目录图谱。该研究前沿方向的核心在于,通过维护包含超过10万个节点和近300万条边的知识图谱,覆盖九万余条技能项和数百个智能体,实现对开发者当前任务的智能推荐。与2026年4月的最新更新相呼应,数据集不仅整合了来自Skills.sh的远程编目技能,还引入了包括LangGraph、CrewAI在内的13种主流编排框架作为测试平台,并融合了类似DESIGN.md的设计规范知识。这一工作直接回应了技能发现困难、上下文预算紧张以及技能过时等真实开发痛点,通过动态评估与安全审查机制,为构建高效、自适应的AI辅助编程生态系统提供了关键的基础设施支撑,其影响在于显著提升了智能体系统对复杂、动态开发环境的适应能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作