Imprint

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/i-Lang/Imprint

下载链接

链接失效反馈

官方服务：

资源简介：

Imprint - AI行为DNA协议数据集是一个用于捕获和标准化个人工作模式的结构化数据集，旨在实现跨AI代理的工作习惯迁移。数据集包含JSONL格式的行为配置文件，每个文件记录用户的编程风格、调试方法、项目上下文和工作经验等信息。核心字段包括元数据(META)、核心行为基因(CORE)、环境事实(FACT)、项目配置(PROJECT)、经验教训(LESSONS)、进度跟踪(PROGRESS)、运行时设置(RUNTIME)和生命周期规则(DECAY)。每个配置文件设计为不超过500个token，保持轻量级且人类可读。数据集适用于AI代理个性化、开发者工具增强和跨平台工作流标准化等场景，采用MIT许可证发布。

The Imprint - AI Behavior DNA Protocol Dataset is a structured dataset designed to capture and standardize individual work patterns, aiming to enable work habit migration across AI agents. The dataset contains behavior profile files in JSONL format, each recording a users programming style, debugging methods, project context, work experience, and other information. Core fields include metadata (META), core behavior genes (CORE), environmental facts (FACT), project configurations (PROJECT), lessons learned (LESSONS), progress tracking (PROGRESS), runtime settings (RUNTIME), and lifecycle rules (DECAY). Each profile is designed to be no more than 500 tokens, maintaining a lightweight and human-readable format. The dataset is suitable for scenarios such as AI agent personalization, developer tool enhancement, and cross-platform workflow standardization, and is released under the MIT license.

创建时间：

2026-04-18

原始信息汇总

Imprint 数据集详情

基本概览

属性	内容
数据集名称	Imprint - AI Behavioral DNA Protocol
许可协议	MIT
标签	ai-agent, behavioral-dna, i-lang, ilang-protocol, personality, developer-tools
配置	默认配置，训练集数据路径为 `data/*.jsonl`

核心概念

Imprint 是一个捕捉用户工作方式的便携式配置文件，能够在不同AI代理之间迁移使用。首次运行时，它会通过简短对话了解用户的工作风格，生成一个不超过500 tokens的结构化、可读的用户配置文件（即工作印记），存储在代码旁边。此后每次会话，该印记会自动应用，携带用户的代码风格、审查标准、规划节奏、设计偏好和Git习惯，跨模型、跨平台、跨团队使用。

数据集结构（Schema）

Imprint 的数据结构包含以下层级，核心印记控制在500 tokens以内，项目和进度层可扩展：

META：模式版本、时间戳、会话次数
CORE：全局行为基因，包含置信度和范围信息
- GENE：特征（T:）和反模式（A:），可通过 when: 条件触发
FACT：可验证的环境数据（技术栈、部署目标、模型访问权限）
PROJECT：仓库特定的覆盖配置、技术栈、约束条件、不匹配项
LESSONS：跨项目积累的教训和经验陷阱
PROGRESS：里程碑式检查点，每10条自动摘要
RUNTIME：当前模式设置（透明度、速度、压缩）
DECAY：临时基因和非活跃项目的生命周期规则

示例数据片段

一个真实用户配置文件示例（共312 tokens）：

::DNA{user} ::META{schema:2.0|updated:2026-04-18|sessions:5}

::CORE{ ::CONTEXT{role:fullstack_dev|experience:4yr|model_access:2|discoverability:yes}

::GENE{style|conf:confirmed|scope:global} T:conclusions_first T:minimal_output|when:task_simple T:full_detail|when:task_complex A:verbose_without_signal⇒waste }

主要特点

用户完全拥有数据：配置文件为纯文本文件，可读取、编辑、版本控制（Git）、共享和迁移，无供应商锁定
跨平台兼容：支持11种AI代理/工具，包括Hermes、Claude Code、Cursor、Copilot、Gemini CLI、Windsurf、Trae、Cline、Roo等
覆盖11个能力领域：记忆、压缩、项目上下文提取、代码审查、调试、规划、进度跟踪、TDD、Git工作流、SEO审计、文案写作

版本更新（Changelog）

最新版本为 v2.1（2026-04-19），主要更新包括：

添加Hermes Agent原生兼容性
更新兼容性表格和安装文档

v2.0（2026-04-18）进行了重大架构升级：

CORE/PROJECT分层分离
条件基因支持（根据不同上下文自动切换行为）
五种冲突类型及显式解决方案
进度压缩机制
用户透明度三模式（安静/解释/审计）

搜集汇总

数据集介绍

构建方式

在人工智能代理日益普及的背景下，Imprint数据集应运而生，旨在解决用户工作风格无法跨平台迁移的痛点。该数据集的构建并非依赖传统的数据采集与标注流程，而是通过一个名为SKILL.md的单一插件实现。首次运行时，该插件会与用户进行一场简短的对话，关注点并非项目本身，而是用户的工作习惯，涵盖调试、规划、提交信息撰写、过往经验与偏好等多个维度。这段对话被压缩转化为一个结构化、可读且不超过500个令牌的便携式行为档案，即用户的“工作印记”。该印记以纯文本文件形式存储在项目代码旁，其架构包含CORE（核心行为基因）、FACT（环境事实）、PROJECT（项目覆写）、LESSONS（经验教训）和PROGRESS（进度里程碑）等多个层级，确保信息组织清晰且可扩展。

使用方法

使用Imprint数据集的过程直观而高效，旨在无缝融入现有工作流。对于Claude Code用户，可直接在终端输入命令“/install imprint”一键安装。支持SKILL.md标准的代理（如Cursor、Copilot、Windsurf等），则需将仓库中的“skills/imprint/SKILL.md”文件复制到对应代理的技能目录下。首次运行后，数据集会自动触发采集对话，生成专属印记。此后，在每一次与兼容代理的交互中，该印记得以自动加载，隐性地规范代理的输出风格与协作模式，从代码审查到任务规划，皆以用户的自定义标准为准绳，而无需用户进行重复配置或提示工程。

背景与挑战

背景概述

Imprint数据集由i-Lang团队于2026年创建，旨在解决AI代理在跨平台协作中缺乏用户个性化工作模式持久化的问题。该数据集源于I-Lang协议，核心研究问题在于如何将人类开发者独特的编码风格、调试策略、规划节奏等行为特征，压缩为一个可移植、轻量级的结构化配置文件（不超过500个Token），从而实现用户行为DNA在Claude Code、Cursor、Copilot等十余种AI代理间的无缝迁移。作为SKILL.md生态中的标志性项目，Imprint开创了“行为印记”这一新范式，其影响力体现在将AI代理从通用工具转变为真正个性化的协作伙伴，为人类与AI的高效协同提供了基础设施级别的解决方案。

当前挑战

Imprint数据集所解决的领域挑战在于：现有AI代理缺乏对用户个性化工作模式的跨平台记忆与复用能力，导致每次切换工具或团队时需重新适配，严重阻碍了人机协作的连续性与效率。构建过程中面临的核心挑战包括：如何在极低Token预算（500以内）下完整编码多维行为特征（代码风格、调试倾向、项目约束等），避免信息丢失；如何设计自适应的冲突解决机制，以协调用户历史偏好与当前任务需求、全局基因与项目覆盖之间的矛盾；以及如何实现跨代理协议的标准化，确保同一份“印记”在十余种不同生态的智能体中保持语义一致性与可编辑性。

常用场景

经典使用场景

Imprint数据集的核心应用场景在于构建跨平台、跨模型的AI智能体行为DNA档案。它通过捕捉开发者独特的工作风格、编码习惯、调试策略与规划节奏，生成一个结构化的便携式配置文件，使智能体能够在不同工具与模型之间无缝迁移并保持个性化交互。该数据集承载了从代码风格偏好到项目管理流程的完整行为画像，常用于研究如何让AI助手深刻理解并适应用户的个性化工作范式，实现真正私有化、可迁移的人机协同体验。

解决学术问题

该数据集精准回应了人机交互领域中智能体个性化适配与行为一致性这一核心难题。传统方案中，AI智能体缺乏对用户独特工作模式的记忆与理解，每次对话皆从零开始构建语境，导致效率低下与体验割裂。Imprint通过结构化存储用户的决策基因、调试免疫模式、项目约束与跨项目经验教训，使得智能体不仅能感知当前任务，更能深谙用户心智模型，有效解决了长期困扰学界的智能体上下文碎片化与个性化缺失问题，为人机协同的深度进化奠定了数据基础。

实际应用

在实际开发与工程场景中，Imprint展现出广阔的应用前景。当开发者切换不同AI编程工具如Claude Code、Cursor、Windsurf或Copilot时，其工作印记可被自动加载，使新环境立刻继承原有的编码风格、代码审查标准与敏捷节奏。企业团队能够共享优秀工程师的隐形知识，标准化开发流程，提升协作效率。此外，该数据集在个人助理定制、代码审计自动化、持续集成中的代码风格一致性检查等方向均有显著价值，有效降低了智能体适应新使用场景的学习成本。

数据集最近研究