video-scissors-sessions

Hugging Face2026-04-20 更新2026-04-21 收录

下载链接：

https://huggingface.co/datasets/kaofelix/video-scissors-sessions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从本地pi工作空间导出的、经过编辑的编码代理会话跟踪记录，这些记录是在处理git@github.com:kaofelix/video-scissors.git项目时收集的。数据通过pi-share-hf工具导出，并经过过滤，仅保留通过确定性编辑和LLM审核的会话。每个`*.jsonl`文件都是一个经过编辑的pi会话，以JSON Lines格式存储，每行代表一个结构化的会话条目。条目包括会话头、用户和助手消息、工具结果、模型变更、思维层级变化、压缩摘要、分支摘要以及自定义扩展数据。会话文件通过`id`和`parentId`以树形结构组织，因此单个会话文件可能包含多个工作分支。数据经过确定性秘密编辑和LLM审核步骤处理，以确保公开分享的适用性。但请注意，该数据集为尽力编辑，仍可能包含敏感或无关内容，使用时需谨慎。

创建时间：

2026-04-17

原始信息汇总

数据集概述

基本信息

数据集名称: coding agent session traces
数据集标识: kaofelix/video-scissors-sessions
任务类别: 文本生成
标签: 代理轨迹、编码代理、pi-share-hf
语言: 英语、代码
许可证: 其他

数据描述

该数据集包含在开发 git@github.com:kaofelix/video-scissors.git 项目时收集的、经过脱敏处理的编码代理会话轨迹。这些轨迹使用 pi-share-hf 从本地 pi 工作空间导出，并经过筛选，仅保留通过了确定性脱敏和大型语言模型审查的会话。

每个 *.jsonl 文件对应一个经过脱敏的 pi 会话。会话以 JSON Lines 格式存储，其中每一行都是一个结构化的会话条目。条目包括会话头、用户和助手消息、工具结果、模型变更、思考层级变更、压缩摘要、分支摘要以及自定义扩展数据。

Pi 会话文件通过 id 和 parentId 形成树状结构，因此单个会话文件可能包含多个工作分支。具体模式请参阅上游会话格式文档：

https://github.com/badlogic/pi-mono/blob/main/packages/coding-agent/docs/session.md

源代码仓库：git@github.com:kaofelix/video-scissors.git

脱敏与审查

数据使用 pi-share-hf 进行处理，采用了确定性秘密脱敏加大型语言模型审查步骤。确定性脱敏针对已知的精确秘密和精选的凭据模式。大型语言模型审查则判断会话是否关于开源项目、是否适合公开分享，以及是否遗漏了任何敏感内容。

除非工作空间初始化时使用了 --no-images 参数，否则上传的会话中可能保留嵌入的图像。

局限性

该数据集是尽力而为进行脱敏的。编码代理的转录内容仍可能包含敏感或无关主题的内容，特别是当会话混合了开源工作和无关的私人任务时。使用时请保持适当的谨慎。

搜集汇总

数据集介绍

构建方式

在编码代理研究领域，video-scissors-sessions数据集通过系统化的流程构建而成。数据源自kaofelix/video-scissors开源项目的编码代理会话记录，利用pi-share-hf工具从本地pi工作空间导出原始会话轨迹。构建过程包含两个关键步骤：首先应用确定性秘密编辑技术，精准移除已知的凭证模式与敏感信息；随后引入大型语言模型进行内容审查，评估会话是否专注于开源项目、适合公开分享，并检测可能遗漏的敏感内容。只有通过双重审核的会话才会被纳入最终数据集，确保了数据质量与安全性。

特点

该数据集展现了编码代理会话轨迹的独特结构特征。数据以JSON Lines格式存储，每个文件代表一个完整的编辑后会话，其中每行对应结构化的会话条目，涵盖会话头、用户与助手消息、工具结果、模型变更及分支摘要等多种元素。值得注意的是，会话文件通过标识符与父标识符构建了树状结构，能够自然呈现编码过程中产生的多个工作分支，从而完整捕捉代理与环境的交互脉络。此外，数据可能保留会话中的嵌入式图像，为理解编码上下文提供了更丰富的视觉参考。

使用方法

使用video-scissors-sessions数据集时，研究者可将其应用于文本生成与智能代理行为分析等任务。数据文件可直接加载为JSON Lines格式进行解析，每条记录均遵循上游会话格式规范，便于程序化提取会话树中的对话序列、工具调用记录及分支演化信息。鉴于数据集经过编辑处理，建议用户在分析时仍保持适当谨慎，注意识别可能残留的无关或敏感内容。该数据集为探索编码代理的决策逻辑、多分支协作模式及人机交互范式提供了高质量的实证基础。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，编码智能体（coding agent）的研究正逐步深化，旨在通过自动化辅助提升代码开发效率与质量。数据集video-scissors-sessions由研究人员kaofelix及相关团队于近期创建，依托开源工具pi-share-hf从本地pi工作空间导出并处理。该数据集聚焦于编码智能体在实际项目video-scissors中的会话轨迹记录，核心研究问题在于解析智能体与开发环境的交互模式，从而为智能体行为分析、代码生成优化及人机协作机制提供实证基础。其结构化会话条目涵盖了消息传递、工具结果及分支工作流等多维度信息，对推动自动化编程与智能体可解释性研究具有显著影响力。

当前挑战

该数据集致力于应对编码智能体领域中的核心挑战，即如何准确捕捉并分析智能体在复杂开发任务中的动态决策过程，以解决代码生成、调试及项目协作中的自动化瓶颈。在构建过程中，面临多重技术难题：其一，会话数据需经过严格脱敏处理，包括确定性秘密信息移除与大型语言模型审查，以确保开源项目内容与敏感信息的有效隔离；其二，会话的树状分支结构增加了数据标准化与解析的复杂性，要求维护完整的父子关系以还原工作流程；其三，数据可能残留无关私人任务内容，对数据纯净度与适用性构成持续挑战。

常用场景

经典使用场景

在智能编程助手与代码生成领域，video-scissors-sessions数据集为研究者提供了丰富的真实世界交互轨迹。这些会话记录捕捉了开发者在处理视频编辑工具项目时的完整工作流程，包括用户指令、助手响应、工具调用及分支决策。通过分析这些结构化数据，研究人员能够深入探索智能体在复杂编码任务中的行为模式，为优化对话策略与任务分解机制奠定基础。

解决学术问题

该数据集有效应对了编程智能体研究中数据稀缺与真实性不足的挑战。它通过去敏感化处理的高质量会话轨迹，支持对代码生成、工具使用规划以及多轮交互协调等核心问题的实证分析。其树状分支结构更揭示了智能体在迭代开发过程中的决策路径，为评估模型在真实场景下的鲁棒性与适应性提供了关键基准，推动了自动化编程助手向实用化迈进。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在智能体会话分析与模型优化方向。研究者利用其树状分支结构开发了新的评估指标，以衡量智能体在长期任务中的一致性；同时，会话中的工具调用序列被用于训练更高效的计划生成模型。此外，基于去敏感化流程的改进方法也推动了开源协作中隐私保护技术的发展，为类似数据集的构建提供了范本。

以上内容由遇见数据集搜集并总结生成