five

stalaei/sdft-tooluse-distil

收藏
Hugging Face2026-04-23 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stalaei/sdft-tooluse-distil
下载链接
链接失效反馈
官方服务:
资源简介:
SDFT工具使用(ToolAlpaca)—蒸馏格式数据集是一个用于文本生成任务的英语数据集,涉及自蒸馏、工具使用和函数调用等技术。数据集分为训练集(4046行)和评估集(97行),包含prompt、teacher_prompt和chat_template_kwargs三列。prompt列表示学生接收的聊天格式提示,teacher_prompt列表示教师接收的聊天格式提示,chat_template_kwargs列包含用于tokenizer.apply_chat_template的额外参数。数据集来源于ToolAlpaca和SDFT论文,用于模拟API多步工具使用跟踪。

The SDFT Tool-Use (ToolAlpaca) — distil format dataset is an English dataset for text-generation tasks, involving techniques such as self-distillation, tool-use, and function-calling. The dataset is divided into a training set (4046 rows) and an evaluation set (97 rows), containing columns for prompt, teacher_prompt, and chat_template_kwargs. The prompt column represents the chat-format prompt received by the student, the teacher_prompt column represents the chat-format prompt received by the teacher, and the chat_template_kwargs column contains extra kwargs for tokenizer.apply_chat_template. The dataset originates from ToolAlpaca and the SDFT paper, used for simulating multi-step tool-use traces with APIs.
提供机构:
stalaei
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作