claudesidian-synthetic-dataset

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/professorsynapse/claudesidian-synthetic-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Claudesidian合成训练数据集包含1000个高质量合成示例，用于对本地LLM进行微调，以便在使用Claudesidian-MCP工具时进行细粒度控制。

创建时间：

2025-11-10

原始信息汇总

Claudesidian Synthetic Training Dataset 概述

数据集基本信息

数据量：1,000个高质量合成示例
格式：JSONL (ChatML)
文件大小：1.55 MB

数据分布统计

指标	数值
总示例数	1,000
期望示例 (Label=True)	742 (74.2%)
非期望示例 (Label=False)	254 (25.4%)
期望与非期望比例	2.92:1

功能覆盖范围

单步工具操作（加载、读取、创建）
多步工作流程与上下文累积
工作空间感知操作与完整上下文恢复
错误处理与恢复模式
工作空间间的上下文切换
团队协调与多项目管理
状态检查点与恢复
日程管理与截止时间处理
归档与迁移模式
日常习惯与例行跟踪

批次划分

批次集	批次数量	示例数量	重点内容
A (52-54)	3	144	核心工具（保险库、内容、内存管理器）
B (55-57)	3	144	高级工作流程与多步链式操作
C (58-60)	3	144	工具发现、错误恢复、澄清
D (61-63)	3	46	工作空间感知工作流程与完整上下文
E (64-66)	3	17	复杂工作流程与错误处理
F (67-70)	4	61	跨工作空间协调、迁移
Final	-	39	实用模式

工具覆盖

覆盖5个代理的42+种工具模式：

vaultManager：文件/文件夹操作
contentManager：CRUD操作
memoryManager：会话、状态、工作空间管理
vaultLibrarian：高级搜索、批量操作
agentManager：代理生命周期、图像生成

数据格式规范

每个示例采用ChatML格式JSONL，包含：

对话序列（用户请求和助手响应）
标签标识（期望/非期望）
完整的7字段上下文对象：
- sessionId：唯一会话标识符
- workspaceId：工作空间上下文
- sessionDescription：简要摘要
- sessionMemory：先前上下文（永不为空）
- toolContext：工具调用原因
- primaryGoal：用户主要目标
- subgoal：本次调用实现的目标

训练应用场景

KTO训练：配对期望/非期望示例进行对比学习
微调：工具调用、上下文保存、工作流程执行
评估：测试LLM链式工具调用和状态管理能力
研究：理解AI在工作空间系统中的行为

质量指标

结构完整性：100% - 所有示例遵循ChatML格式
上下文完整性：100% - 所有字段存在且有效
真实性：高 - 基于实际工作空间使用模式
多样性：全面 - 覆盖20+不同使用场景

生成信息

生成工具：Claude (Anthropic)
创建日期：2025年11月9日
生成时间：开发过程中的增量批次
质量保证：使用自定义JSONL检查器验证

搜集汇总

数据集介绍

构建方式

在人工智能工具调用领域，Claudesidian合成数据集通过精心设计的生成流程构建而成。该数据集采用分批次生成策略，将1000个高质量样本划分为六个核心批次（A-F）和一个最终批次，每个批次聚焦不同的功能模块。生成过程中严格遵循ChatML格式规范，确保所有对话记录包含完整的七项上下文字段。通过Claude模型系统化生成涵盖单步操作、多步工作流、错误处理等20余种应用场景的样本，并经过定制化JSONL验证工具的质量校验，最终形成结构严谨的训练资源。

特点

该数据集在工具学习领域展现出显著的专业特性。其核心优势在于全面覆盖42种工具模式与5类智能体交互场景，包含742个正向样本与254个负向样本的对比组合。每个样本均严格保持七项上下文字段的完整性，特别是sessionMemory字段始终处于非空状态。数据集呈现出高度真实的 workspace 操作特征，既包含基础的文件管理操作，也囊括跨工作区协调、状态检查点恢复等复杂工作流，为模型训练提供了丰富的语义层次和实操场景。

使用方法

针对不同训练目标，该数据集提供了灵活的应用方案。研究者可通过HuggingFace标准接口加载数据集文件，利用标签字段实现正负样本的自动分离。对于对比学习任务，可构建配对样本集进行KTO训练；若进行指令微调，则可通过格式化函数将多轮对话转换为连续文本。该数据集特别适用于工具调用能力培养、上下文保持机制学习以及工作流执行效果评估，为本地大语言模型的工具使用能力优化提供了标准化训练范本。

背景与挑战

背景概述

随着大型语言模型在工具调用与工作流管理领域应用的深化，Claudesidian合成数据集于2025年11月由Claudesidian-MCP项目团队构建，旨在通过1000条高质量合成样本优化本地化语言模型的工具使用能力。该数据集覆盖42种工具模式与多智能体协作场景，其核心研究聚焦于上下文感知的工作流执行与状态持久化机制，为智能体系统在复杂环境中的决策能力提供了标准化训练范本。

当前挑战

该数据集需解决工具调用链中上下文断裂与状态迁移的语义连贯性问题，具体体现为多步工作流中会话记忆的完整性维护与跨工作区操作的上下文重构。构建过程中面临合成数据真实性与多样性的平衡挑战，需通过七层上下文字段的结构化约束确保工具参数的有效性，同时规避会话记忆空值等常见错误模式对模型泛化能力的影响。

常用场景

经典使用场景

在智能体工具调用研究领域，该数据集作为高质量合成训练资源，主要应用于微调本地大语言模型对Claudesidian-MCP工具链的掌握能力。通过涵盖单步操作、多步工作流、错误恢复等42种工具模式，研究者能够系统训练模型在复杂场景下的工具选择与参数传递能力。其精心设计的742个正向示例与254个负向示例形成鲜明对比，为模型理解工具调用的边界条件提供了标准范本。

衍生相关工作

基于该数据集的特性，研究社区衍生出多项工具学习领域的创新工作。在对比学习方向，其明确标注的正负样本对推动了KTO训练范式的优化实践。在状态管理研究方面，完整上下文对象的设计启发了一系列关于会话记忆持久化的新方法。该数据集构建的多智能体协调模式，更为分布式工具调用系统的架构设计提供了重要参考。

数据集最近研究