five

hermes-session-digests

收藏
Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/cyberjanitor/hermes-session-digests
下载链接
链接失效反馈
官方服务:
资源简介:
Hermes Session Digests 是一个结构化的事后摘要数据集,源自 Hermes AI 智能体的会话记录。每个摘要捕获了单次智能体会话中的目标、上下文、执行的操作、做出的决策、持久的经验学习、遇到的错误以及建议推广的目标内容。该数据集旨在服务于三个核心目的:作为 Hermes 驱动的知识管理系统的可搜索记忆流(规范知识库);当与原始智能体轨迹配对时,作为指令调优、智能体轨迹学习和检索增强生成(RAG)微调的训练数据(教师信号);以及作为人类可读、可对比、版本化的人工智能体行为与决策审计记录。数据集提供两种格式:完整的、人类可读的 Markdown 格式(包含 YAML 前言元数据,结构化的章节包括:目标、上下文、关键发现、采取的行动、决策、持久学习、推广目标)和机器可读的 JSON-Lines 格式(适用于训练流水线,每行一个会话的 JSON 对象)。所有摘要均在发布前经过了个人身份信息(PII)移除处理,以确保隐私安全。数据规模属于“小于1K”的类别。数据模式详细,Markdown 文件包含会话日期、模型、模型提供商、平台、项目、领域、类型和状态等元数据字段;JSON-Lines 文件则包含会话ID、时间戳、模型、决策列表、学习列表、行动列表、推广目标列表、识别出的系统缺陷列表和识别出的系统优势列表等结构化字段。该数据集适用于文本生成和强化学习等任务,特别是与智能体行为建模、知识提炼和基于会话历史的训练相关的研究与应用。

Hermes Session Digests is a structured post-hoc summary dataset derived from Hermes AI agent session logs. Each digest captures the goals, context, executed actions, decisions made, persistent experiential learnings, encountered errors, and suggested generalization goals from a single agent session. The dataset is designed to serve three core purposes: as a searchable memory stream (canonical knowledge base) for Hermes-powered knowledge management systems; as training data (teacher signal) for instruction tuning, agent trajectory learning, and retrieval-augmented generation (RAG) fine-tuning when paired with raw agent trajectories; and as human-readable, comparable, versioned audit logs of AI agent behavior and decision-making. The dataset is provided in two formats: a complete, human-readable Markdown format (with YAML frontmatter metadata, structured sections including: goals, context, key findings, actions taken, decisions, persistent learnings, generalization goals) and a machine-readable JSON-Lines format (suitable for training pipelines, with one JSON object per session line). All summaries have undergone personally identifiable information (PII) removal prior to release to ensure privacy. The data scale falls under the less than 1K category. The data schema is detailed: Markdown files include metadata fields such as session date, model, model provider, platform, project, domain, type, and status; JSON-Lines files contain structured fields like session ID, timestamp, model, decision list, learning list, action list, generalization goal list, identified system weaknesses list, and identified system strengths list. The dataset is suitable for tasks such as text generation and reinforcement learning, particularly research and applications related to agent behavior modeling, knowledge distillation, and training based on session history.
创建时间:
2026-05-13
原始信息汇总

数据集概述:Hermes Session Digests

数据集名称:Hermes Session Digests

许可证:MIT

语言:英文

标签:agent-traces, session-digests, hermes, knowledge-base, training-data

数据集规模:少于 1,000 条记录

任务类型:文本生成,强化学习


数据集目的

  • 构建规范化的知识库:摘要数据是 Hermes 知识管理系统的可检索记忆流。
  • 作为训练数据:与原始代理轨迹配对时,摘要可作为指令微调、代理轨迹学习和 RAG 微调的教师信号。
  • 支持审计:提供可读、可对比、版本化的记录,追踪代理的行为和决策。

数据格式

提供两种格式:

格式 路径 说明
Markdown digests/*.md 完整人类可读摘要,包含 YAML 前置元数据,结构化章节:目标、上下文、关键发现、行动、决策、持久经验、提升目标。
JSON-Lines data/sessions.jsonl 机器可读的结构化提取数据,每行一个 JSON 对象,适用于训练流程。字段包括:session_id, timestamp, model, decisions, learnings, actions, promotion targets 等。

模型过滤

所有会话都标注了生成该会话的模型。训练时可按模型过滤以避免风格不一致,示例代码:

python import json sessions = [json.loads(line) for line in open("data/sessions.jsonl")] deepseek_sessions = [s for s in sessions if s["model"] == "deepseek-v4-pro"]


隐私保护

所有摘要在发布前均经过 PII 移除处理:本地文件路径被泛化,临时进程 ID 被去除,频道名称被抽象化。不包含 API 密钥、令牌、电子邮件地址或任何个人标识符。


数据模式

Markdown 前置元数据字段

字段 描述
session_date 代理会话的 ISO 日期
model 生成代理响应的模型
model_provider 模型的 API 提供商
platform 消息平台 (discord, telegram, cli)
project 主要项目上下文
domain 知识领域
type 始终为 session-digest
status draft / active / canonical / archived

JSON-Lines 字段

字段 类型 描述
session_id string 唯一会话标识符
timestamp ISO datetime 会话开始时间
model string 代理模型
decisions string[] 关键决策
learnings string[] 持久经验
actions_taken string[] 具体执行的操作
promotion_targets string[] 推荐提升的页面
gaps_identified string[] 发现的系统漏洞
strengths_identified string[] 确认的系统优势

相关资源

  • r0b0tlabbra1n — 配套的代理记忆系统
  • QMD — 用于检索的本地混合搜索引擎
搜集汇总
数据集介绍
main_image_url
构建方式
Hermes Session Digests数据集通过结构化的后处理摘要方式构建,针对Hermes AI代理的每一次会话进行深度提炼。每条摘要均以Markdown和JSON-Lines两种格式呈现,其中Markdown文件包含完整的YAML头部元数据与结构化章节,涵盖目标、上下文、关键发现、行动步骤、决策、持久性学习及推广目标等内容;而JSON-Lines格式则专为训练流程优化,按行存储会话的会话ID、时间戳、模型信息及决策、学习、行动等结构化字段。数据集还对所有会话进行模型来源标注,并经过严格的PII移除处理,确保隐私合规。
特点
该数据集的核心特点在于其双重格式设计,兼顾人类可读性与机器可解析性:Markdown格式支持直观审计与版本管理,JSON-Lines格式则便于直接接入训练流水线。每条摘要均结构化地记录了代理的完整行为轨迹与推理过程,形成可搜索的知识库内存流。此外,数据集的模型过滤机制允许用户按生成模型对会话进行细分,避免风格不一致对训练效果的干扰。PII移除处理则进一步保障了数据发布的合规性与安全性。
使用方法
用户可通过模型字段对会话进行筛选,例如使用Python脚本按模型名称过滤JSON-Lines数据,以获取风格一致的训练子集。该数据集既可作为指令微调与强化学习的训练信号,与原始代理轨迹配对使用;也可作为RAG微调及可审计的知识库载体。此外,结合配套的代理记忆系统与混合搜索引擎,可构建完整的知识管理与检索增强生成工作流。
背景与挑战
背景概述
Hermes Session Digests数据集由r0b0tlab团队创建,旨在系统性地记录和结构化AI代理会话的后验摘要。该数据集涵盖会话目标、上下文、行为决策、可持久化的经验教训、错误及推广目标等核心信息,为构建可搜索的记忆流和知识管理系统提供基础。作为教学信号,该数据与原始代理轨迹配对,可用于指令微调、代理轨迹学习和检索增强生成微调等研究方向。同时,它提供了人类可读、可版本化和可差异化的审计记录,增强了AI代理行为的透明度与可解释性,推动了智能体系统在知识管理与人机协作领域的应用。
当前挑战
该数据集面临的主要挑战包括:1)解决AI代理行为记录碎片化、不可追溯及不可复现的领域问题,通过标准化的摘要格式提升代理系统的可审计性和可解释性;2)构建过程中需处理多模态数据源(如Discord、Telegram、CLI平台)的异构性,确保不同会话格式的统一结构化;3)严格的隐私保护要求,涉及PII去除、文件路径泛化、进程ID剥离等处理,在保留语义完整性的同时避免敏感信息泄露;4)跨模型风格一致性维护,需通过模型标签过滤避免不一致的训练信号源,保证数据质量与训练效果。
常用场景
经典使用场景
Hermes Session Digests 数据集作为智能体会话的结构化摘要集合,其经典使用场景聚焦于构建智能体的记忆与知识管理模块。该数据集以标准化格式记录了每一轮智能体会话的目标、上下文、行动、决策、持久化学习成果及待优化方向,能够被检索系统高效索引,从而充当智能体知识库中可搜索的持久化记忆流。在多轮对话或长期自主任务中,智能体可以回溯这些摘要,实现跨会话上下文连贯性,并用于离线分析智能体行为逻辑,提升系统的透明度和可审计性。
解决学术问题
该数据集系统性地解决了智能体轨迹数据的结构化知识蒸馏问题,填补了从非结构化的原始智能体交互日志到可理解、可复用的持久化知识表示之间的转化空白。在学术研究中,它为会话式人工智能的可解释性、智能体行为复盘、以及基于经验的增量学习提供了标准化的研究基准。借助这一数据集格式,研究人员得以探索如何从复杂、稀疏的智能体操作序列中提取高价值的决策知识和系统缺陷,推动智能体自我反思机制与记忆增强学习范式的发展,并有效降低因会话遗忘导致的推理退化风险。
衍生相关工作
该数据集衍生出的经典工作涵盖了智能体记忆系统和混合检索机制的构建。与之直接相关的项目包括 r0b0tlabbra1n,这是一套与 Hermes Session Digests 配套的智能体记忆系统,通过将结构化摘要与长期存储相结合,实现了会话层次的持久化知识管理。另一项相关工作 QMD 则是一种本地混合搜索引擎,利用该数据集的标签与结构化字段进行高效检索,支撑智能体在离线或隐私受限环境下快速召回过往决策。这些衍生产物共同推动了智能体从无状态会话向具备持续学习能力的记忆增强系统进化,为可成长型 AI 助手的工程实现提供了基础框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作