seta-sft-kimi-k2.5-thinking

Name: seta-sft-kimi-k2.5-thinking
Creator: CAMEL-AI.org
Published: 2026-04-08 03:36:48
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/camel-ai/seta-sft-kimi-k2.5-thinking

下载链接

链接失效反馈

官方服务：

资源简介：

Seta SFT — Kimi K2.5 (thinking) 是一个用于监督微调（SFT）的数据集，源自对 moonshot/kimi-k2.5 模型在 seta-env-v2 终端代理基准测试上的 1488 次成功运行轨迹的蒸馏。数据集使用 Qwen/Qwen3-8B 聊天模板进行标记化，并已准备好用于 AREAL FSDPLMEngine SFT 训练。数据集包含每轮试验的完整诊断记录，包括任务ID、试验唯一标识、奖励分数、模型ID、对话JSON路径、提供者标记计数、本地标记计数、助手标记数量、消息数量、原始对话JSON、聊天模板字符串、输入ID和损失掩码等字段。数据集规模为 1,488 行，总标记数为 15,688,749，其中可训练标记占 49.6%。数据集的生成过程包括运行轨迹、合并结果、标记化和损失掩码构建、过滤以及思考处理。每个助手回合包含完整的思考轨迹和可见内容及工具调用，模型被训练为在每次响应前发出思维链。数据集适用于文本生成任务，特别是终端代理和工具使用场景。加载方式包括完整记录加载和AREAL训练器就绪加载。数据集采用 Apache 2.0 许可证。

提供机构：

CAMEL-AI.org

创建时间：

2026-04-08

搜集汇总

数据集介绍

构建方式

在智能体与终端交互的研究领域，构建高质量的训练数据至关重要。该数据集源自对moonshot/kimi-k2.5模型在seta-env-v2基准测试上的1488次成功轨迹蒸馏。构建过程始于在终端环境中执行TITO智能体的完整推演，通过多轮迭代与恢复机制确保任务收敛。随后，系统合并所有推演结果，筛选出具备有效验证记录的对话快照。核心步骤涉及应用Qwen3-8B聊天模板进行标记化，并构建精细的损失掩码，该掩码精确标记了助手生成的所有内容，包括链式推理区块与工具调用，从而为监督微调提供了结构化的训练样本。

特点

该数据集在终端智能体任务中展现出鲜明的技术特征。其核心在于完整保留了每次推演的诊断元数据，如任务标识、奖励分数及标记统计，为深入分析与定制化过滤提供了坚实基础。数据集中近75%的样本达到了满分奖励，体现了较高的任务完成质量。尤为突出的是，每个助手回合均包含了完整的链式推理痕迹，模型被训练为在每次响应前显式生成思考过程，这有助于提升智能体决策的透明性与逻辑性。数据集规模适中，包含约1569万总标记，其中可训练标记占比接近一半，适合进行高效的参数微调。

使用方法

针对不同的应用场景，该数据集提供了灵活的使用途径。对于研究与分析目的，用户可直接通过Hugging Face的`datasets`库加载完整数据集，访问所有列以进行样本检查、数据过滤或重新标记化。若旨在进行模型训练，特别是与AREAL训练框架集成，则可调用专用的`get_seta_sft_dataset`函数，该函数将数据投影为仅包含输入标记序列与损失掩码的格式，便于训练器的张量填充与损失计算。数据集的设计确保了其既能支持深入的离线分析，也能无缝接入标准化的训练流程，服务于终端智能体能力的持续优化。

背景与挑战

背景概述

在人工智能领域，终端智能体（Terminal Agent）的研究致力于开发能够理解自然语言指令并在命令行环境中执行复杂任务的自主系统。seta-sft-kimi-k2.5-thinking数据集由CAMEL-AI团队于近期构建，旨在通过监督微调（SFT）提升大型语言模型在工具使用与推理方面的能力。该数据集基于moonshot/kimi-k2.5模型在seta-env-v2基准测试中的1488次成功轨迹蒸馏而成，并采用Qwen3-8B的对话模板进行标记化处理。其核心研究问题聚焦于如何通过链式思维（chain-of-thought）训练增强模型在终端环境中的多步推理与工具调用性能，为智能体系统的实际应用提供了高质量的训练资源。

当前挑战

该数据集旨在解决终端智能体领域中的工具使用与多步推理挑战，其构建过程面临若干技术难题。在领域层面，智能体需准确解析用户指令、规划行动序列并调用外部工具，同时保持推理过程的透明性与可控性，这对模型的逻辑连贯性与环境适应性提出了较高要求。在数据构建过程中，挑战包括从大量代理轨迹中高效提取并合并成功案例，确保对话结构的完整性；精确处理链式思维标记与损失掩码的对应关系，以区分可训练与不可训练内容；以及应对任务执行中的崩溃或超时情况，通过多次重试机制保证数据质量与覆盖率。这些挑战的克服为后续模型微调奠定了可靠基础。

常用场景

经典使用场景

在终端智能体与工具调用研究领域，该数据集为监督微调提供了高质量的指令遵循样本。其核心应用场景在于训练大型语言模型在复杂环境交互中执行多步任务，例如通过命令行终端操作文件系统、运行程序或处理网络请求。数据集中的对话轨迹模拟了真实的人机协作过程，模型需理解用户指令、规划行动序列并调用适当工具以达成目标。这种场景对模型的推理能力、工具选择准确性和环境适应性提出了较高要求，为智能体系统的行为优化奠定了数据基础。

解决学术问题

该数据集主要针对智能体研究中的样本效率与泛化能力问题。传统强化学习方法在终端任务中往往需要大量试错，而本数据集通过蒸馏专家轨迹，将成功的交互序列转化为监督信号，显著降低了训练成本。它解决了模型在工具调用时出现的幻觉问题，通过显式的思维链标注强化了可解释推理。此外，数据集支持对思维推理机制的消融研究，有助于厘清内部推理过程对任务完成质量的影响，推动了模块化智能体架构的发展。

衍生相关工作

围绕该数据集衍生的研究主要集中于智能体架构优化与训练方法创新。例如，基于思维链的推理增强技术被广泛应用于工具调用模型，如ReAct、Toolformer等工作借鉴了其轨迹标注思路。在训练范式上，它启发了从模仿学习到课程学习的过渡策略，推动了对齐算法在复杂动作空间中的适应性改进。同时，数据集的构建流程为后续的基准测试提供了标准化参考，催生了更多针对终端操作的多模态评估体系，持续拓展着具身智能的研究边界。

以上内容由遇见数据集搜集并总结生成