five

kwaikeg/KAgentInstruct

收藏
Hugging Face2024-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kwaikeg/KAgentInstruct
下载链接
链接失效反馈
官方服务:
资源简介:
KAgentInstruct是由KwaiAgents项目提出的指令微调数据集,包含超过20万条与代理相关的指令微调数据,部分数据经过人工编辑。数据集不包含论文中提到的通用类型数据。数据集的构成包括开源模板、KAgentSys模板、Meta-Agent生成的模板以及采样的查询,最终形成了224,137个实例、120,917个查询和18,005个模板。每个数据条目都是一个字典,包含唯一的ID、查询字符串、数据来源、功能列表、功能名称列表、LLM提示响应列表以及额外信息。数据格式设计清晰,便于访问数据点。

KAgentInstruct is an instruction-tuning dataset proposed by the KwaiAgents project. It contains over 200,000 agent-related instruction-tuning samples, with some of the data manually edited. This dataset excludes the general-type data mentioned in the corresponding paper. The dataset is composed of open-source templates, KAgentSys templates, Meta-Agent-generated templates, and sampled queries, ultimately yielding 224,137 instances, 120,917 queries, and 18,005 templates. Each data entry is a dictionary containing a unique ID, query string, data source, function list, function name list, list of LLM prompt responses, and additional information. The data format is clearly designed to enable straightforward access to individual data points.
提供机构:
kwaikeg
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-sa-4.0
  • 语言: 中文, 英文
  • 数据规模: 100K<n<200K
  • 任务类别: 文本生成

数据集描述

KAgentInstruct 是由 KwaiKEG 从 Kuaishou Technology 开源的一系列 Agent 相关工作中提出的指令调优数据集。该数据集包含超过 20 万条 Agent 相关的指令微调数据(部分由人工编辑),但不包含论文中提到的 General-type 数据。

总体统计

数据集包含 224,137 个实例,120,917 个查询和 18,005 个模板,具体统计如下:

#Instances #Queries #Templates Avg. #Steps
224,137 120,917 18,005 1.85

数据格式

每个数据条目是一个字典,包含以下结构:

  • id: 条目的唯一标识符。
  • query: 查询字符串。
  • source: 数据来源,包括 kwai-agent, meta-agent, autogpt, modelscope, react, toolllama, profile。
  • functions: 字符串列表,每个字符串是一个可以解析为字典的 JSON 对象(除非来源是 meta-agent)。
  • function_names: 函数名称字符串列表,对应 functions 列表中的函数。
  • llm_prompt_response: 包含以下内容的字典列表:
    • instruction: 指令文本字符串。
    • input: 输入文本字符串。
    • output: 输出文本字符串。
    • llm_name: 使用的 LLM 名称,gpt4 或 gpt3.5。
    • human_edited: 布尔值,指示响应是否由人工编辑。
  • extra_infos: 包含额外有用信息的字典。

数据格式示例

json { "id": "", "query": "", "source": "", "functions": [], "function_names": [], "llm_prompt_response": [ { instruction: "", input: "", output: "", llm_name: "", human_edited: bool }, ... ], "extra_infos": {} }

下载方式

可以通过 kwaikeg/KAgentBench 下载 KAgentInstruct 数据集。

引用

@article{pan2023kwaiagents, author = {Haojie Pan and Zepeng Zhai and Hao Yuan and Yaojia Lv and Ruiji Fu and Ming Liu and Zhongyuan Wang and Bing Qin }, title = {KwaiAgents: Generalized Information-seeking Agent System with Large Language Models}, journal = {CoRR}, volume = {abs/2312.04889}, year = {2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
KAgentInstruct数据集的构建,是基于KwaiKEG团队开源的KwaiAgents项目,该数据集整合了ReACT、AutoGPT、ToolLLaMA、ModelScope等开源模板,以及KAgentSys模板和Meta-Agent生成的模板,与采样查询共同融入实验性Agent循环中,形成了包含224,137个实例、120,917个查询和18,005个模板的指令微调数据集。该数据集的部分数据经过了人工编辑,以提升数据质量。
使用方法
用户可以通过访问HuggingFace的kwaikeg/KAgentInstruct数据集页面下载KAgentInstruct。数据集采用易于访问的JSON格式,用户可以根据自己的需求,对数据进行读取、分析和应用。此外,数据集的相关论文提供了详尽的背景信息和数据集构建的细节,便于用户更好地理解和使用该数据集。
背景与挑战
背景概述
KAgentInstruct数据集,由KwaiKEG研究团队自Kuaishou Technology开源的KwaiAgents项目中提出,是一项专注于指令微调的Agent相关数据集。该数据集创建于2023年,由超过20万条经过部分人工编辑的Agent相关指令数据构成,旨在推动大型语言模型在信息寻求型Agent系统中的应用。KAgentInstruct的构建集合了多个开源模板与KAgentSys模板,以及Meta-Agent生成的模板,并采样查询数据构成提示-响应对,为相关领域的研究提供了丰富的资源,对Agent系统的指令微调研究产生了显著影响。
当前挑战
KAgentInstruct数据集在构建过程中所面临的挑战主要涉及两个方面:一是领域问题的挑战,即如何通过精确的指令微调提升Agent系统的信息寻求能力;二是数据集构建的挑战,包括如何整合多样化的开源模板和生成模板,以及如何确保人工编辑的质量和数量能够满足研究需求。这些挑战不仅要求研究者在数据集构建时具备高度的创造性,也要求在数据处理和分析时具有严谨性,以确保数据集的有效性和可靠性。
常用场景
经典使用场景
在人工智能领域,尤其是大型语言模型的应用研究中,KAgentInstruct数据集以其独特的指令微调数据,成为一项不可或缺的资源。该数据集主要用于训练和评估智能体在特定任务中的表现,如信息检索、任务执行等,通过对指令的精确理解和响应,实现对智能体行为的精细调控。
解决学术问题
KAgentInstruct数据集的构建,解决了学术研究中如何有效微调智能体指令的问题,提高了智能体对复杂任务的处理能力。它通过提供大量经过部分人工编辑的指令数据,使得研究者在模拟真实交互场景时,能够更加精确地分析和优化智能体的行为模式,从而推动智能体系统的研究向更高层次发展。
实际应用
在实际应用中,KAgentInstruct数据集的应用场景广泛,涵盖了智能客服、智能家居控制、自动化任务执行等多个领域。它使得智能体能够更好地理解用户意图,并在复杂多变的交互环境中作出合适的反应,显著提升了用户体验和服务效率。
数据集最近研究
最新研究方向
在自然语言处理领域,KAgentInstruct数据集以其针对指令微调的独特定位,正成为研究的热点。该数据集由KwaiKEG团队推出,包含了逾20万条与智能体相关的指令微调数据,部分经过人工编辑。它不仅整合了开源模板,还结合了实验性的智能体循环,为研究提供了丰富的样本。当前,该数据集正被用于探索智能体系统的泛化信息检索能力,特别是在大型语言模型的支持下。其研究方向的深入,将进一步推动智能体交互技术的发展,对提升智能对话系统的理解和响应能力具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作