kwaikeg/KAgentInstruct
收藏数据集概述
基本信息
- 许可证: cc-by-nc-sa-4.0
- 语言: 中文, 英文
- 数据规模: 100K<n<200K
- 任务类别: 文本生成
数据集描述
KAgentInstruct 是由 KwaiKEG 从 Kuaishou Technology 开源的一系列 Agent 相关工作中提出的指令调优数据集。该数据集包含超过 20 万条 Agent 相关的指令微调数据(部分由人工编辑),但不包含论文中提到的 General-type 数据。
总体统计
数据集包含 224,137 个实例,120,917 个查询和 18,005 个模板,具体统计如下:
| #Instances | #Queries | #Templates | Avg. #Steps |
|---|---|---|---|
| 224,137 | 120,917 | 18,005 | 1.85 |
数据格式
每个数据条目是一个字典,包含以下结构:
id: 条目的唯一标识符。query: 查询字符串。source: 数据来源,包括 kwai-agent, meta-agent, autogpt, modelscope, react, toolllama, profile。functions: 字符串列表,每个字符串是一个可以解析为字典的 JSON 对象(除非来源是 meta-agent)。function_names: 函数名称字符串列表,对应functions列表中的函数。llm_prompt_response: 包含以下内容的字典列表:instruction: 指令文本字符串。input: 输入文本字符串。output: 输出文本字符串。llm_name: 使用的 LLM 名称,gpt4 或 gpt3.5。human_edited: 布尔值,指示响应是否由人工编辑。
extra_infos: 包含额外有用信息的字典。
数据格式示例
json { "id": "", "query": "", "source": "", "functions": [], "function_names": [], "llm_prompt_response": [ { instruction: "", input: "", output: "", llm_name: "", human_edited: bool }, ... ], "extra_infos": {} }
下载方式
可以通过 kwaikeg/KAgentBench 下载 KAgentInstruct 数据集。
引用
@article{pan2023kwaiagents, author = {Haojie Pan and Zepeng Zhai and Hao Yuan and Yaojia Lv and Ruiji Fu and Ming Liu and Zhongyuan Wang and Bing Qin }, title = {KwaiAgents: Generalized Information-seeking Agent System with Large Language Models}, journal = {CoRR}, volume = {abs/2312.04889}, year = {2023} }




