open-agent-tools/open-tools
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/open-agent-tools/open-tools
下载链接
链接失效反馈官方服务:
资源简介:
OpenAgent Tools (OATs)数据集旨在支持小型工具调用模型,如Google的FunctionGemma。该数据集包含来自多个仓库的源代码的结构化索引,使这些模型能够准确确定正确的工具和源代码,而无需大型GPU资源。数据集特征包括oat、src_file、prompt_category和prompt,并用于一个包括爬取、注释、编译和小型模型推断的流程。该数据集旨在促进在受限硬件上实现快速、高质量的工具调用。
The OpenAgent Tools (OATs) dataset is designed to support small tool-calling models like Googles FunctionGemma. It includes structured indices of source code from various repositories, enabling these models to accurately determine the correct tools and source code without requiring large GPU resources. The dataset features include oat, src_file, prompt_category, and prompt, and it is used in a pipeline that involves crawling, annotating, compiling, and inferring with small models. The dataset is intended to facilitate fast, high-quality tool-calling on constrained hardware.
提供机构:
open-agent-tools
搜集汇总
数据集介绍

构建方式
OpenAgent Tools(OATs)数据集以OpenAgent Tools Protocol(OATs)为框架构建而成,旨在为小型工具调用模型提供高效精准的语义索引。该数据集通过数据挖掘前沿AI仓库,对源代码执行多次预处理与压缩,逐步提取并结构化关键信息,最终形成包含仓库级、目录级和文件级三种粒度的提示索引。构建流程涵盖代码爬取与注释生成、协议编译为索引JSON文件、以及BM25检索与模型推理的整合,从而将海量源代码转化为小型模型可语义匹配的紧凑化工具描述。
特点
本数据集的突出特点在于其跨仓库、多粒度的语义压缩能力,通过预处理的语义面包屑替代暴力搜索,使参数量仅为270M的FunctionGemma等小型模型能够精准匹配最合适的工具与源代码。数据集包含超过11万条记录,每条均由协议标识符、源文件路径、提示类别及自然语言提示组成,结构简洁而内涵丰富。其设计充分考虑了资源受限环境下的实际部署需求,无需依赖昂贵的大型GPU硬件即可完成高质量的工具调用。
使用方法
用户可通过Hugging Face平台直接加载该数据集,结合Google推出的FunctionGemma-270m-it模型进行灵活使用。使用方式支持仓库级、目录级和文件级三种粒度的上下文检索:仓库级提供完整仓库的编译清单,目录级聚焦特定子目录及其关联工具,文件级则针对单个源代码文件的语义面包屑进行匹配。借助预构建的推理封装组件,用户仅需输入如“get utc”这类简单查询,即可经由BM25检索与模型推理自动完成工具选择与执行,实现低成本、高效能的函数调用流程。
背景与挑战
背景概述
OpenAgent Tools (OATs) 数据集由 District Solutions 团队于2024年创建,旨在解决大型语言模型(LLMs)在实际部署中依赖昂贵GPU基础设施的瓶颈问题。核心研究问题聚焦于如何使轻量级工具调用模型(如 Google 的 FunctionGemma-270M)在无需大规模算力的情况下,精准地从多仓库中识别正确的工具、源代码及API。该数据集通过对领先AI仓库的代码进行多轮数据挖掘与预处理,将原始代码压缩为结构化索引,从而赋予小模型高效匹配提示与最佳工具的能力。OATs 的发布为资源受限场景下的工具调用开辟了新路径,显著降低了智能体开发的硬件门槛,对推动小型化、低成本AI代理的普及具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于:传统LLM工具调用依赖显式函数定义与大规模推理,而OATs需在缺失这些条件下,让小模型仅凭自然语言查询精准定位跨仓库的代码功能与API,这对语义匹配的准确性与效率提出了极高要求。构建过程中,团队遇到多重挑战:首先,需从海量且异构的源码库中自动提取并结构化编程意图,形成可供小模型理解的语义面包屑;其次,需设计多方位的索引压缩策略(文件级、目录级、仓库级),在保留关键信息的同时降低模型处理负荷;最后,还需验证BM25等轻量检索方法与函数调用模型(如FunctionGemma)的协同效果,确保在消费者硬件上实现快速、高质量的推理响应。
常用场景
经典使用场景
在人工智能与软件工程的交叉领域中,如何让小型语言模型高效理解并调用海量代码仓库中的工具与函数,始终是一项富有挑战的课题。OpenAgent Tools(OATs)数据集为此提供了精妙的解决方案,其最经典的用途在于构建轻量级的工具调用索引。通过深度挖掘顶尖AI开源仓库,将源代码预处理为结构化的语义提示(prompt),这些提示不仅能精准描述函数功能(如“将HuggingFace模型转换为GGUF格式并指定输出类型为f16”),还能关联至具体文件与工具。该数据集与Google的FunctionGemma(270M参数)模型配合,借助BM25检索与语义排序,使得小型模型可在消费级硬件上完成以往需大型GPU集群支撑的复杂工具匹配任务,开创了资源约束环境下高效工具调用的新范式。
衍生相关工作
OATs数据集的发布催生了一系列富有启发性的衍生工作与工具生态。在模型层面,Google的FunctionGemma(270M-it)成为其首要验证模型,而Unsloth等社区随后推出了针对该模型的微调教程,进一步探索了参数效率与工具调用准确率的平衡。推理框架方面,OATs的设计理念被吸纳至HuggingFace的Transformers库与Tiny Agent服务器中,促使官方加速了对小型函数调用模型的原生支持。此外,vLLM与LiteLLM等高性能推理引擎也相继引入了针对FunctionGemma的工具调用解析器,使得OATs的索引格式能与主流服务协议无缝对接。在应用生态上,Open WebUI等项目借鉴了其“语义提示索引”的思想,构建了可插拔的工具服务器与技能系统。这些工作共同推动了轻量级、可复用的智能体工具调用标准的形成,为未来分布式自主系统的互联互通奠定了坚实基础。
数据集最近研究
最新研究方向
在紧凑型工具调用模型的浪潮中,open-tools数据集聚焦于为小参数模型构建高效、可移植的提示索引机制。当前前沿研究正致力于探索如何通过数据挖掘与多轮源码压缩,将大规模的仓库级工具调用知识结构化,使诸如Google FunctionGemma 270M这类轻量级模型得以在消费者级硬件上实现精准的语义匹配与工具推理。这一方向挑战了传统大模型依赖昂贵GPU的范式,推动了边缘计算与本地化AI代理的落地,其意义在于降低工具调用技术的准入门槛,并催生出一套基于检索增强生成(RAG)与BM25排序的全新代理管线。
以上内容由遇见数据集搜集并总结生成



