thibaud-perrin/hibo-function-calling-v1
收藏数据集概述
数据集描述
数据集名为 "hibo-function-calling-v1",旨在支持大型语言模型(LLMs)在函数调用任务上的微调。该数据集包含一个名为 train 的分割,包含 323,271 个数据点,跨越三列:dataset_origin、system 和 chat。
数据集由两个不同来源 gathnex/Gath_baize 和 glaiveai/glaive-function-calling-v2 合并而成,旨在为训练能够理解和生成对话上下文中函数调用的模型提供全面基础。gathnex/Gath_baize 中的 chat_sample 列被拆分为两个单独的列(chat 和 system),以更好地适应 LLM 训练的结构。此外,引入了 dataset_origin 列(在 gathnex/Gath_baize 中)以跟踪每个数据条目的来源,增强可追溯性和数据集完整性。
数据集目标
该数据集的主要目标是支持 AI 和机器学习领域的研究人员和开发者微调 LLMs,以提高在函数调用场景中的性能。通过提供丰富的对话交流和系统交互,数据集旨在促进开发能够在对话框架内理解复杂指令并执行函数调用的模型。
数据集结构
数据字段
dataset_origin:指示数据点的来源,值表示stackoverflow、alpaca、quora、medical或glaiveai/glaive-function-calling-v2。system:包含 AI 助手系统指令。chat:包含 AI 助手和用户从对话交流中的消息。
数据分割
数据集仅包含一个分割:
train:323,271 个数据点。
数据集创建
源数据
数据集通过合并两个数据集 gathnex/Gath_baize 和 glaiveai/glaive-function-calling-v2 创建。gathnex/Gath_baize 中的 chat_sample 列被仔细拆分为 chat 和 system 列,以保持与数据集结构和目标的一致性。dataset_origin 列被添加以确保数据来源的透明度和可追溯性。
源语言生产者
源数据来自 gathnex/Gath_baize 和 glaiveai/glaive-function-calling-v2 数据集中收集和整理的对话交互,涵盖广泛的对话上下文和系统交互。
使用
该数据集旨在用于训练和微调 LLMs,以在对话 AI 系统中进行函数调用任务。它可以用于增强模型根据用户输入解析和执行函数调用的能力,从而提高 AI 助手和类似应用的交互能力。
引用
请使用以下 BibTeX 条目引用此数据集: bibtex @misc{hibo-function-calling-v1, author = Thibaud Perrin, title = hibo-function-calling-v1: A Dataset for Function Calling in Conversational AI, year = 2024, publisher = Hugging Face, }
致谢
该数据集通过合并 gathnex/Gath_baize 和 glaiveai/glaive-function-calling-v2 的数据开发而成。我们对这些数据集的创建者和贡献者表示感谢,他们提供了创建 hibo-function-calling-v1 所需的基础数据。




