seta-sft-kimi-k2.5-nothink

Name: seta-sft-kimi-k2.5-nothink
Creator: CAMEL-AI.org
Published: 2026-04-08 03:36:59
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/camel-ai/seta-sft-kimi-k2.5-nothink

下载链接

链接失效反馈

官方服务：

资源简介：

Seta SFT — Kimi K2.5 (no-thinking) 是一个用于终端代理任务监督微调的数据集，包含1488个成功的代理运行轨迹，这些轨迹来自moonshot/kimi-k2.5模型在seta-env-v2基准测试上的表现。数据集使用Qwen/Qwen3-8B聊天模板进行标记化，适用于AREAL FSDPLMEngine的监督微调训练。数据集保留了完整的每次试验诊断记录，包含任务ID、试验唯一标识、奖励分数、模型ID、原始对话JSON路径、令牌计数信息、本地令牌计数、助手令牌数量、消息数量、原始对话JSON、聊天模板字符串、输入ID和损失掩码等字段。数据集包含1,488行数据，总计13,177,096个令牌，其中可训练令牌占40.0%（5,271,764个）。74.7%的行获得了满分奖励（1.0），平均奖励为0.932。数据集经过了严格的收集和处理流程，包括运行轨迹收集、结果合并、标记化和损失掩码构建、过滤等步骤，并特别处理了推理痕迹。数据集采用Apache 2.0许可证，与上游seta-env-v2许可证一致。

提供机构：

CAMEL-AI.org

创建时间：

2026-04-08

搜集汇总

数据集介绍

构建方式

在智能体与工具调用研究领域，高质量监督微调数据的构建是模型性能提升的关键。Seta SFT — Kimi K2.5 (no-thinking)数据集的构建始于在seta-env-v2终端智能体基准上，对moonshot/kimi-k2.5模型进行的大规模轨迹采样。通过TITO智能体框架，对每个任务执行单次轨迹生成，并设置了迭代次数与令牌数量的上限。对于因崩溃或速率限制而失败的任务，采用了多轮恢复机制以确保数据完整性。随后，利用专用工具合并所有轨迹结果，并筛选出成功完成验证的对话记录。在数据转换阶段，选取最完整的对话快照，应用Qwen3-8B聊天模板进行结构化表征，并通过精细的令牌流扫描技术构建了损失掩码，明确标记出所有助理响应片段为可训练部分。为确保与推理时行为一致，原始对话中的内部推理痕迹被系统性地移除，并在系统提示中附加了抑制思考的指令。

特点

该数据集在终端智能体指令微调场景下展现出若干鲜明特征。其核心在于提供了经过精心处理的、无内部思考痕迹的对话轨迹，这直接模拟了模型在部署时不进行显式推理链输出的实际分布。数据集中包含了详尽的元数据列，如任务标识、奖励分数、令牌统计及完整的原始对话JSON，为研究者提供了深度分析与定制化过滤的灵活性。从统计维度看，数据集包含近一千五百条样本，总令牌数超过一千三百万，其中可训练令牌占比达百分之四十，确保了充足的学习信号。绝大多数样本获得了完美的验证奖励，反映了源模型在基准任务上的高成功率。每条样本均经过Qwen3-8B分词器处理并附带精确的损失掩码，实现了与特定训练框架的无缝对接。

使用方法

为满足不同研究阶段的需求，该数据集提供了两种主要加载方式。对于旨在深入分析数据构成、进行样本筛选或重新进行分词处理的研究者，可通过标准的Hugging Face `datasets`库加载完整数据集，从而访问包括任务ID、奖励分数、原始对话字符串及分词结果在内的全部字段。这种模式支持对数据构建流程的追溯与审计。另一方面，若直接用于AREAL框架下的监督微调训练，则可调用配套的专用加载函数。该函数会自动将数据样本投影为仅包含输入令牌序列与损失掩码的元组，并集成序列填充与截断处理，使其能够直接馈入训练器的数据整理器。这种设计分离了数据探索与模型训练的关注点，既保证了使用的便捷性，又维护了数据处理流程的透明度与可复现性。

背景与挑战

背景概述

在人工智能领域，特别是大语言模型（LLM）的监督微调（SFT）研究中，高质量指令遵循与工具调用数据集的构建至关重要。Seta SFT — Kimi K2.5 (no-thinking) 数据集由CAMEL-AI研究团队于近期创建，其核心研究问题聚焦于如何从智能体在终端环境中的成功轨迹中蒸馏出有效的微调样本，以提升模型在复杂任务中的规划与执行能力。该数据集基于moonshot/kimi-k2.5模型在seta-env-v2基准测试上的1488次成功运行轨迹构建，并采用Qwen3-8B的对话模板进行标记化处理。它不仅为智能体能力的迭代优化提供了关键数据支持，也推动了终端环境下工具使用与任务完成相关研究的发展。

当前挑战

该数据集旨在应对智能体在开放终端环境中进行复杂任务规划与执行的挑战，其核心是解决模型如何有效理解自然语言指令、调用正确工具并生成连贯动作序列的难题。在构建过程中，研究人员面临多重技术挑战：首先，从原始交互轨迹中精确提取可训练对话序列并构建损失掩码，需确保助手生成内容与工具调用标记的准确对齐，同时剔除内部推理痕迹以匹配推理时分布；其次，处理大规模轨迹数据的合并与过滤，需有效整合多次重试结果并剔除验证失败的样本，以保障数据质量与一致性；此外，采用特定对话模板进行标记化时，需细致处理边界标记的归属，避免引入噪声影响模型训练效果。

常用场景

经典使用场景

在终端智能体与工具调用领域，该数据集作为监督微调的黄金标准，专为优化大型语言模型在复杂环境中的指令遵循与任务执行能力而设计。其核心应用场景聚焦于模型对齐训练，通过蒸馏自Kimi K2.5模型在SETA环境中的成功轨迹，为研究者提供了高质量、结构化的对话序列，用于微调模型以精准生成终端命令或API调用，同时抑制内部推理痕迹，确保输出直接面向可执行动作。

实际应用

在实际部署中，该数据集能够直接赋能自动化运维、智能客服与代码辅助等场景。经过其微调的模型可应用于服务器管理、故障诊断或软件开发流程，通过自然语言指令驱动命令行工具或外部API，完成诸如日志分析、系统监控或自动化脚本生成等具体任务，显著提升人机协作效率与操作安全性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于智能体架构优化与训练方法创新。例如，基于其构建的AREAL训练流程已成为终端智能体对齐的参考范式；同时，其伴生数据集支持了思维链保留与抑制的对比研究，催生了关于模型透明性与效率权衡的深入探讨，并为后续工具学习、课程学习以及多模态交互系统的开发提供了重要启发。

以上内容由遇见数据集搜集并总结生成