Trelis/function_calling_v3_SAMPLE

Name: Trelis/function_calling_v3_SAMPLE
Creator: Trelis
Published: 2023-12-27 10:23:22
License: 暂无描述

Hugging Face2023-12-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Trelis/function_calling_v3_SAMPLE

下载链接

链接失效反馈

官方服务：

资源简介：

Trelis Function Calling Dataset - VERSION 3 - SAMPLE是一个用于问答、对话和文本生成任务的数据集，支持英语语言。该数据集允许模型进行函数调用的微调，数据是人工生成的，未使用Llama 2或OpenAI。数据集包含66个训练行、19个验证行和5个测试行，基于八个函数：search_bing、search_arxiv、save_chat、read_json_file、list_files、get_current_weather、delete_file和clear_chat。数据集的特点包括跨兼容的函数格式、链式函数调用能力，并支持推理脚本。此外，数据集还提供了微调脚本、QLoRa训练笔记本、许可信息、提示格式示例、CSV和JSON文件结构、测试JSON结构以及仓库结构的详细信息。

提供机构：

Trelis

原始信息汇总

Trelis Function Calling Dataset - VERSION 3 - SAMPLE

数据集概述

任务类别: 问答、对话、文本生成
语言: 英语
标签: 函数调用、函数呼叫
规模: 小于1K

数据集特点

允许模型进行函数调用的微调。
数据集由人工生成，不使用Llama 2或OpenAI。
包含66条训练数据、19条验证数据和5条测试数据（用于手动评估）。
基于八个函数：search_bing, search_arxiv, save_chat, read_json_file, list_files, get_current_weather, delete_file, clear_chat。

自v2以来的更新

跨兼容的函数格式：格式现在与OpenAI的函数格式匹配，便于从使用OpenAI API迁移到任何使用此数据集微调的模型。
链式函数调用：特别适用于大型模型，首先调用一个函数以获取数据，然后调用第二个函数。
支持推理脚本。

数据集结构

CSV文件结构:
- functionList: 两个函数的描述（当前函数和一个随机选择的其他函数）。
- userPrompt: 用户提示。
- assistantResponse: 助手响应。
JSON文件结构:
- 遵循OpenAI标准的函数元数据格式。
- 每个函数文件是一个JSON文件，包含函数描述和示例提示响应对。

数据集生成

functions/: 包含函数文件的目录，每个文件是一个描述函数及其示例提示和响应的JSON文件。
generate_dataset.py: 生成基础训练和测试数据集CSV文件的Python脚本。
addBlank.py: 在系统提示后添加truthfulqa问题和答案。
text_responses.py: 添加提示以使模型适应在提示序列开始时出现的函数描述。

测试数据集生成

test_functions/: 包含用于手动评估的函数。
create_test_datasets.py: 运行createTestPrompts.py和test_text_responses.py。
createTestPrompts.py: 创建数据行以测试函数调用，包括提供和不提供必需参数的情况，以及链式函数调用测试。
test_text_responses.py: 生成数据行以测试简单提示、短非理性提示和标准问题。

许可

数据集适用于商业用途。
许可证不可转让给其他用户/实体。
数据集不可在当前或衍生形式下重新发布。
数据集可用于训练和微调商业语言模型。

搜集汇总

数据集介绍

构建方式

Trelis函数调用数据集v3样本版，是在人类生成的基础上构建而成，旨在让模型能够进行函数调用任务的微调。该数据集包含66条训练数据、19条验证数据和5条测试数据，以供手动评估。数据集基于八个预定义的函数，如搜索Bing、搜索arXiv、保存聊天记录等，其构建过程涉及从真实场景中抽象出函数调用场景，并以结构化的方式呈现，便于模型理解和学习。

特点

本数据集的特点在于，它允许模型针对函数调用进行微调，不依赖于Llama 2或OpenAI的技术。自v2版本以来的更新包括，实现了跨兼容的函数格式，匹配OpenAI的函数格式，便于迁移；支持链式函数调用，大模型能够先调用一个函数以获取第二个函数调用的数据。此外，数据集还附带推理脚本，并提供了详细的文档和示例，以指导用户如何使用。

使用方法

使用该数据集时，用户可以根据自己的需求购买完整的数据集或样本版。数据集以CSV和JSON文件格式提供，包含了函数列表、用户提示和助手响应等信息。用户可以通过提供的推理脚本进行模型的推理测试，同时也可以使用细调笔记和脚本对模型进行微调。此外，Trelis Mart上还提供了预训练的函数调用模型，可供直接使用。

背景与挑战

背景概述

Trelis Function Calling Dataset - VERSION 3 - SAMPLE，简称Trelis v3，是一个专注于函数调用任务的样本数据集。该数据集由Trelis团队创建于2023年，旨在提供一个人类生成的样本数据集，以供模型进行微调以实现函数调用功能。数据集包含66条训练数据、19条验证数据和5条测试数据，基于八个预定义的函数。这些函数包括搜索Bing、搜索arXiv、保存聊天记录、读取JSON文件、列出文件、获取当前天气、删除文件和清除聊天记录。该数据集的创建标志着对自然语言处理领域的一个重要贡献，特别是在对话系统和自动化任务执行方面。

当前挑战

该数据集面临的挑战主要体现在两个方面：一是领域问题的解决，即如何通过微调模型来有效实现函数调用任务，这要求模型能够理解并执行复杂的序列操作；二是构建过程中的挑战，包括如何确保数据集的质量和一致性，以及如何设计适用于不同模型的函数格式。此外，数据集构建中还涉及到了函数调用链的挑战，即模型需要能够根据前一步的函数调用结果来决定后续的调用，这对于模型的能力提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Trelis Function Calling Dataset v3 SAMPLE 数据集的典型应用场景在于优化模型的函数调用能力。该数据集提供了精细的人类生成的交互式对话样本，旨在使模型能够学习如何根据对话上下文正确调用特定的函数，如获取天气信息、搜索网络资源等，从而提升智能体的交互质量和功能性。

解决学术问题

该数据集解决了学术研究中如何提高机器在复杂对话中准确执行功能操作的问题。通过提供标准化的函数调用格式和丰富的样本，研究者能够训练和微调模型，使其在处理真实世界对话时更加精准地理解和执行用户意图，这对于提升对话系统的智能化水平具有重要意义。

衍生相关工作

基于Trelis Function Calling Dataset v3 SAMPLE，研究者可以开展多种相关工作，如开发新的函数调用模型、设计更高效的对话策略，或是构建更先进的自动评估机制来衡量模型在函数调用任务上的表现。这些衍生工作将进一步推动自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集