agent-sessions

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/cfahlgren1/agent-sessions

下载链接

链接失效反馈

官方服务：

资源简介：

Agent Sessions 数据集是一个经过处理的基准会话文件存档，包含 Codex、Claude Code 和 Pi 等模型的会话记录。数据集主要由三种文件构成：原始会话跟踪的 JSONL 文件（每个基准运行一个文件）、派生的一行一会话的 JSONL 文件（sessions.jsonl）以及包含构建元数据、源路径、大小和编辑计数的清单文件（manifest.json）。数据经过严格的清洗处理，包括将本地主目录下的绝对路径重写为通用格式、替换本地 macOS 用户名为通用标识、标准化机器特定的临时路径等。预处理审计确认数据中不包含真实电子邮件地址或明显的 API/承载令牌。该数据集适用于分析 AI 代理会话模式、评估模型性能等研究场景。

创建时间：

2026-03-30

原始信息汇总

Agent Sessions 数据集概述

数据集简介

此数据集是经过清理的基准会话文件存档，涉及 Codex、Claude Code 和 Pi 模型，并包含一个派生的每会话单行视图。

文件构成

*.jsonl：经过清理的原始会话轨迹文件，每个基准运行对应一个文件。
sessions.jsonl：派生文件，其中 1 行 = 1 个会话。
manifest.json：构建元数据、源路径、大小和编辑计数信息。

数据清理说明

本地主目录下的绝对路径被重写为 /Users/USER/...。
本地 macOS 用户名被重写为 USER。
机器特定的临时路径（位于 /private/var/folders/... 和 /var/folders/...）被重写为通用占位符。
上传前的审计未在三个源轨迹中发现真实的电子邮件地址或明显的 API 或承载令牌。

搜集汇总

数据集介绍

构建方式

在人工智能代理交互研究领域，agent-sessions数据集通过系统性的数据收集与处理流程构建而成。其核心来源于多个先进模型（如Codex、Claude Code和Pi）在基准测试中产生的原始会话轨迹。构建过程中，技术团队对原始数据进行了严格的脱敏处理，包括将本地绝对路径统一重写为通用格式、替换特定用户名以及标准化临时文件路径，以确保不包含个人身份信息或敏感凭证。所有处理后的会话数据被整合为结构化的JSON Lines格式，并辅以详细的元数据清单，从而形成了一套既完整又符合隐私保护规范的会话档案。

使用方法

研究人员可利用本数据集深入探究不同智能代理在交互会话中的行为模式与性能差异。典型的使用路径是首先加载`sessions.jsonl`文件，对会话进行宏观统计与模式分析；随后可根据研究需求，回溯至对应的原始`*.jsonl`文件，以获取更细粒度的交互步骤与上下文信息。元数据文件则为数据验证与实验配置提供了关键参考。该数据集适用于人机交互、对话系统评估及代理行为基准测试等多个研究方向，为实证分析提供了高质量的基础数据。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，智能体会话数据的收集与分析对于理解代码生成模型的交互行为至关重要。Agent Sessions数据集应运而生，它系统性地归档了经过脱敏处理的基准测试会话文件，涵盖了Codex、Claude Code和Pi等前沿模型的交互轨迹。该数据集由相关研究团队构建，旨在捕捉智能体在代码生成任务中的动态会话过程，为评估模型的实际应用表现、分析其决策逻辑与错误模式提供了宝贵的实证基础。其创建深化了我们对大语言模型在编程环境中行为模式的理解，推动了自动化编程助手与智能体交互研究的发展。

当前挑战

该数据集致力于解决代码生成智能体在真实交互场景下的行为评估与可解释性分析问题，其核心挑战在于如何从复杂的多轮会话中提取有意义的模式，并量化智能体的决策质量与稳定性。在构建过程中，研究团队面临数据脱敏的严峻挑战，需在保留会话逻辑完整性的同时，彻底移除所有个人身份信息、机器特定路径及潜在的安全凭证，如本地用户名、绝对路径和临时目录引用。此外，将原始会话轨迹转换为规范化的单会话视图，要求设计一致的数据结构以整合异构的交互事件，确保衍生数据的可靠性与可复现性。

常用场景

经典使用场景

在人工智能与软件工程交叉领域，Agent Sessions数据集为研究智能体交互行为提供了关键资源。该数据集通过记录Codex、Claude Code和Pi等智能体在基准测试中的会话轨迹，典型应用于评估代码生成模型的交互模式与决策逻辑。研究者可分析会话序列中的命令执行、文件操作与错误处理行为，从而揭示智能体在复杂任务中的认知机制与策略演化。

解决学术问题

该数据集有效解决了智能体行为可解释性研究的实证空白问题。通过提供脱敏处理的真实会话记录，研究者能够系统分析智能体在动态环境中的适应性表现，识别其决策偏差与能力边界。这为构建更可靠的智能体评估框架奠定基础，并推动人机协作系统中透明性与可控性的方法论创新。

实际应用

在工业实践中，Agent Sessions数据集为开发智能编程助手提供了行为优化参照。工程团队可依据会话轨迹中暴露的常见错误模式，针对性改进智能体的上下文理解能力与代码修复策略。同时，该数据支持构建更精准的智能体性能监控系统，助力企业实现自动化开发流程的质量控制与风险预警。

数据集最近研究