Dolci-Instruct-SFT-Tool-Use-SA

Name: Dolci-Instruct-SFT-Tool-Use-SA
Creator: Allen Institute for AI
Published: 2025-11-20 21:57:10
License: 暂无描述

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/allenai/Dolci-Instruct-SFT-Tool-Use-SA

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于Olmo 3 7B Instruct的工具使用数据的子集，包含消息内容和相关函数调用等信息。数据集包含训练集 split，大小为9655209字节，共有1604个示例。数据集遵循共享 alike CC BY-SA 许可证。

提供机构：

Allen Institute for AI

创建时间：

2025-11-18

原始信息汇总

数据集概述

基本信息

数据集名称: Dolci-Instruct-SFT-Tool-Use-SA
维护机构: AllenAI
许可证: Share-Alike CC BY-SA许可证
用途: 研究和教育用途

数据规模

训练集样本数量: 1604个示例
训练集数据大小: 9655209字节
下载大小: 2647463字节

数据结构

特征字段

messages: 消息列表
- content: 字符串类型
- function_calls: 字符串类型
- functions: 字符串类型
- role: 字符串类型
dataset_source: 字符串类型
id: 字符串类型

数据来源说明

该数据集是Olmo 3 7B Instruct工具使用数据的子集
完整工具使用数据集：https://huggingface.co/datasets/allenai/Dolci-Instruct-SFT-Tool-Use
主要SFT数据：https://huggingface.co/datasets/allenai/Dolci-Instruct-SFT

使用条款

需遵循Ai2的负责任使用指南：https://allenai.org/responsible-use

搜集汇总

数据集介绍

构建方式

在构建Dolci-Instruct-SFT-Tool-Use-SA数据集的过程中，研究团队从原始工具使用数据集中精心筛选出1604个高质量样本，每个样本均包含多轮对话结构，涵盖角色分配、功能调用和内容描述等关键元素。数据来源经过严格标注与验证，确保信息的一致性与完整性，最终以标准化格式整合成训练集，为指令微调任务提供可靠基础。

特点

该数据集以工具使用场景为核心，其独特之处在于每个样本均整合了消息内容、函数调用参数和角色定义等多维特征，形成结构化的交互序列。数据规模紧凑但覆盖广泛，支持高效模型训练，同时遵循CC BY-SA共享协议，强调在研究与教育领域的合规应用，体现了对负责任人工智能发展的重视。

使用方法

用户可通过HuggingFace平台直接下载该数据集，其标准化的JSON结构便于加载与处理，适用于指令微调或工具导向的语言模型训练。数据划分为单一训练集，可直接集成至主流机器学习框架，结合提供的参考数据集链接，可进一步扩展研究范围，实现模型在复杂任务中的性能优化。

背景与挑战

背景概述

随着人工智能领域对工具调用能力的深入研究，Dolci-Instruct-SFT-Tool-Use-SA数据集由艾伦人工智能研究所于2024年构建，专注于增强语言模型在结构化工具调用场景中的指令微调能力。该数据集作为Dolci-Instruct系列的重要组成部分，旨在解决复杂任务中函数调用与自然语言交互的协同优化问题，为OLMo等开源大模型的工具化应用提供了关键训练资源，显著推动了具身智能与工具导向语言理解的前沿探索。

当前挑战

在工具调用领域，模型需精准解析多轮对话中的函数参数约束与执行逻辑，同时克服真实场景中工具动态性与错误传递的复杂性。数据集构建过程中面临标注一致性挑战，需平衡函数描述结构化与自然语言多样性的矛盾，并确保1604条高质量样本覆盖工具类型、调用场景及错误处理的典型分布，这对数据清洗与语义对齐提出了极高要求。

常用场景

经典使用场景

在人工智能工具调用研究领域，Dolci-Instruct-SFT-Tool-Use-SA数据集为指令微调提供了专门设计的训练样本。该数据集通过结构化对话记录展现工具调用的完整流程，每条数据包含角色对话、函数定义和实际调用信息，为模型学习工具使用规范建立了标准范式。研究人员利用这些精心标注的样本训练语言模型，使其掌握在对话过程中适时调用外部工具的能力，从而增强模型解决复杂任务的实际效能。

衍生相关工作

围绕该数据集衍生的研究工作主要集中在工具增强语言模型的架构创新和训练方法改进。研究者基于这些标注数据开发了多种工具调用策略，包括工具选择机制、参数验证方法和错误恢复流程。相关工作还探索了如何将工具使用能力与其他技能结合，形成了多模态工具调用、工具链组合等研究方向。这些成果共同推动了工具增强型AI系统的发展，为构建更强大的通用人工智能提供了重要技术路径。

数据集最近研究