Phoenix-SFT-v1

Name: Phoenix-SFT-v1
Creator: flammen.ai
Published: 2026-05-09 21:39:16
License: 暂无描述

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/flammenai/Phoenix-SFT-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Phoenix v1 是一个用于记忆提取的合成监督微调（SFT）数据集，旨在训练Phoenix模型从用户与AI角色（“Flame”）的聊天记录中提取结构化记忆。数据集包含多种语言的对话，但记忆输出始终为英语。输入为对话记录，输出为包含记忆内容的JSON对象，记忆分为事实、偏好、关系、事件和情感等类别。数据集格式遵循OpenAI/HuggingFace的消息约定，包含训练集和评估集，按密度、语言和阶段分层。数据生成经过三个阶段，包括种子生成、选择提取和质量判断，确保提取的记忆符合11种失败模式的过滤标准。数据集的主要局限性包括仅适用于SFT、完全合成、无日期感知能力、英语输出偏见以及质量判断可能的不完美。

Phoenix v1 is a synthetic supervised fine-tuning (SFT) dataset for memory extraction, designed to train the Phoenix model to extract structured memories from chat logs between users and an AI character (Flame). The dataset contains dialogues in multiple languages, but the memory output is always in English. The input is dialogue records, and the output is a JSON object containing memory content, categorized into facts, preferences, relationships, events, and emotions. The dataset format follows the OpenAI/HuggingFace message convention, including training and evaluation sets, stratified by density, language, and phase. Data generation goes through three stages: seed generation, selection extraction, and quality judgment, ensuring the extracted memories meet the filtering criteria for 11 failure modes. The main limitations of the dataset include being only suitable for SFT, being entirely synthetic, lacking date awareness, having an English output bias, and potential imperfections in quality judgment.

提供机构：

flammen.ai

创建时间：

2026-05-09

原始信息汇总

数据集概述：Phoenix-SFT-v1

数据集名称： Phoenix v1 — Memory Extraction Dataset
发布者： flammen.ai
许可证： Apache-2.0
语言： 英语（主要）、西班牙语、法语、日语、中文（输出始终为英语）
数据规模： 1K < n < 10K（训练集 1728 条，评估集 170 条）
任务类别： 文本生成、摘要
标签： 聊天、记忆提取、对话式 AI

数据集目的

为名为 Phoenix 的小型模型（类似 Qwen2.5 架构）提供监督微调（SFT）训练数据。该模型负责读取用户与 AI 角色（Flame）之间的聊天窗口，并输出一个结构化的 JSON 列表，列出 Flame 应记住的关于用户的可回忆事实。

任务与输出格式

输入： 一段对话记录，包含用户和 AI 角色的发言。
输出： 一个 JSON 对象，包含 memories 数组，数组内每个元素为一条记忆。
输出示例： json { "memories": [ {"content": "Grandmother recently passed away", "category": "event"}, {"content": "Was taught to bake by her grandmother", "category": "relation"}, {"content": "Can make her grandmothers oatmeal cookies from memory", "category": "factual"}, {"content": "Working through grief over her grandmothers death", "category": "emotion"} ] }
空记忆： memories 数组为空是合法输出，表示该对话窗口中没有值得提取的事实，训练模型学会在无信息时保持沉默。

记忆类别（封闭枚举）

类别	描述
factual	具体数据（工作、地点、家庭结构、物品）
preference	喜好/厌恶/价值观/习惯
relation	用户生活中的其他人物
event	用户经历的事情（近期或正在进行）
emotion	情绪状态、当前关注点

每条 content 为第三人称句子，3-30 个词，主语默认为用户。

数据格式

每条数据为 OpenAI / HuggingFace 消息格式的聊天完成示例：

json { "seed_id": "...", "stratum": { "length": "medium", "density": "mixed", "register": "casual", "phase": "getting_to_know", "topic_mix": "scattered", "language": "en" }, "messages": [ {"role": "system", "content": "You are a memory-extraction model..."}, {"role": "user", "content": "User: Nina Flame: Marisol

Conversation:..."}, {"role": "assistant", "content": "{"memories":[...]}"} ] }

数据集划分与分布

文件： train.jsonl（1728 条）、eval.jsonl（170 条，约 10%）
划分基于 (density, language, phase) 进行分层抽样，确保评估集与训练集分布一致。

密度分布：

密度	训练集	评估集	说明
mixed	738	77	真实平均情况——事实与闲聊混合
sparse	403	39	主要为闲聊，≤1 个事实
dense	363	34	事实密集，5 个以上用户事实
null	224	20	无可提取的用户事实——空数组是正确答案

空样本占 13%（高于目标 10%），旨在加强模型输出空数组的能力，避免从纯闲聊中编造记忆。

语言分布： 英语 ≥85%，西班牙语、法语、日语、中文各占小部分。输出始终为英语。

生成流水线

所有阶段均可在 flammenai/Phoenix 仓库中复现（内部工具）：

种子对话生成（Claude Haiku 4.5）： 根据上述维度采样的分层参数生成合成对话，约 2500 条。
记忆提取（Claude Sonnet 4.6）： 使用工具强制 JSON 输出，包含 9 条规则的系统提示和 3 个上下文示例（覆盖空窗口、剥离时间信息的脆弱性、过滤短暂信息等情况）。
质量审查（本地 Qwen3.5-27B + JSON Schema 约束）： 对每条提取结果基于 11 种失败模式进行判定，仅通过所有 11 种模式的结果保留在数据集中。

失败模式分类（审查过滤器）

数据集中保留的每条提取结果均通过了以下所有模式：

模式	描述
hallucinated_date	包含对话中不存在的绝对日期/年份
relative_time_qualifier	包含会过时的相对时间短语（如“上个月”）
over_inference	声称的内容比消息实际支持的更强
invented_from_null	从无信号对话中编造记忆
vague_filler	内容过于泛泛（如“喜欢东西”）
flame_as_user	将 AI 角色的发言错误地当作用户事实
ephemeral_detail	一次性、琐碎的信息（如“今天吃了越南粉”）
wrong_category	类别枚举错误
wrong_language	记忆文本不是英语
merged_relations	将两个不同的人物合并为一人
refusal_from_register	因对话风格（轻浮/亲密）而跳过有记忆价值的内容

另有 gold_anchors.json 文件，包含 10 个手工制作的参考示例及其正确与错误变体，用于定性审查。

局限性

仅 SFT： 目前仅提供监督微调数据。DPO 基础设施（负样本生成器、基于模式的对比对）已存在于流水线代码库中，但因预算未在大规模下运行。v2 计划使用生产环境中的真实失败数据进行 DPO 优化。
仅合成数据： 所有对话由 Claude Haiku 生成。真实用户对话分布会有所不同，生产部署应加入真实数据评估。
无日期感知： Phoenix 没有“今天”的概念，相对时间信息被特意剥离，确保记忆在数月后仍然准确。
英语输出偏见： 即使输入为其他语言，记忆内容始终为英语——这是有意设计，因为下游消费者（FlameWorker 提示构建器）为英语环境。
审查器不完美： Qwen 27B 审查器能可靠检测结构性问题（如 vague_filler、wrong_language、hallucinated_date、relative_time_qualifier），但对较微妙的语义问题（如 invented_from_null、ephemeral_detail）较弱，可能有少量问题数据未被过滤。

联系信息

邮箱： contact@schneewolflabs.com
所属机构： Schneewolf Labs LLC（flammen.ai）

搜集汇总

数据集介绍

构建方式

Phoenix-SFT-v1数据集由Flammen.ai发布，专为训练小型语言模型Phoenix（基于Qwen2.5架构）的长期记忆提取能力而设计。其构建分为三阶段：首先，利用Claude Haiku 4.5根据对话长度、信息密度、语域、阶段、主题混合及语言六个维度的分层采样，生成了约2500条合成对话作为种子数据；其次，借助Claude Sonnet 4.6以工具强制JSON输出形式，配合涵盖空窗口、脆弱时间戳剔除等场景的9条规则与3个上下文示例，完成记忆提取；最后，采用本地Qwen3.5-27B模型结合JSON模式约束，依据包含幻觉日期、过度推断等11种失败模式的分类体系对每项提取进行质量评判，仅保留通过所有检验的样本。最终数据集包含1728条训练样本与170条评估样本，并依据信息密度、语言和对话阶段进行分层划分。

使用方法

Phoenix-SFT-v1数据集适用于监督微调（SFT）范式，旨在训练模型从用户与AI角色的对话窗口中提取结构化记忆。使用时，模型接收包含系统提示词、用户对话转录及角色信息的消息序列，并输出符合JSON Schema的记忆列表，格式为包含“content”和“category”字段的对象数组。数据集已按OpenAI/HuggingFace标准消息格式组织，可通过加载train.jsonl和eval.jsonl文件直接用于训练与评估。值得注意的是，模型应学会在对话窗口无显著事实时返回空数组，这一设计有助于抑制记忆幻觉。若需进一步强化，开发者可参考Flammen.ai的pipeline仓库，结合DPO（直接偏好优化）技术利用真实生产环境中的失败数据提升模型鲁棒性，但当前版本暂未包含此阶段的大规模实践。

背景与挑战

背景概述

Phoenix-SFT-v1数据集由flammen.ai于近期发布，旨在解决异步角色对话中AI角色对用户长期记忆的持续性挑战。该数据集由Schneewolf Labs LLC主导研发，核心研究问题在于训练小型语言模型（如Qwen2.5）从对话窗口提取结构化记忆，以JSON格式输出用户事实、偏好、关系、事件和情感等类别。作为开源数据策略的一部分，Phoenix-SFT-v1通过合成数据生成与严格质量过滤，为AI长期记忆层提供了首个监督微调基准。其对对话式AI领域的贡献在于，首次系统性地定义了记忆提取任务，并为模型学习何时保持静默而非捏造记忆提供了显式训练信号。

当前挑战

该数据集面临的挑战包括：1）所解决的领域问题——对话式AI中缺乏结构化记忆提取机制，导致角色无法维持用户长期连续性；模型容易在闲聊中捏造虚假记忆，需学习何时输出空数组而非杜撰内容。2）构建过程中遇到的挑战——合成数据分布与实际用户对话存在差异，需通过分层抽样（如密度、语言、阶段）确保评估集代表性；质量审核依赖11种故障模式过滤，但Qwen 27B裁判模型在语义性故障（如从无信号窗口推断记忆）上表现较弱，可能存在漏网样本；跨语言鲁棒性有限，记忆输出仅支持英文，限制了多语言场景的适用性。

常用场景

经典使用场景

Phoenix-SFT-v1数据集专为长时记忆提取任务而设计，其核心应用场景是从多轮人机对话历史中抽取结构化的用户记忆。在该场景下，模型需要阅读一段用户与AI角色之间的聊天窗口，并以JSON格式输出一组关键记忆条目，每条记忆附带事实、偏好、关系、事件或情感等类别标签。该数据集采用合成对话策略，覆盖多种语言、对话密度与阶段，特别包含13%的无记忆窗口样本，以训练模型在无有效信息时输出空数组，避免幻觉式捏造。

解决学术问题

该数据集针对对话系统中长期上下文记忆缺失这一核心学术难题提供了系统化解决方案。传统检索增强生成方法往往依赖外部知识库，难以在端到端对话中实现记忆的自动抽取与更新。Phoenix-SFT-v1通过定义五类记忆范畴与合规性验证体系，使模型能够从自由对话中凝练出具有持久价值的记忆片段，同时抑制时效性细节、过度推断与空窗口幻觉。这一框架为可延展性对话智能体的开发提供了可复现的训练基准与评估范式。

实际应用

在实际部署中，该数据集驱动的Phoenix模型可作为异步角色对话系统的记忆层引擎，支撑虚拟角色长期保持对用户个人经历、情感状态与关系网络的连贯认知。例如，情感陪伴类AI助手可据此记住用户亲友离世等重要人生事件，在后续交流中自然引用而不显生硬。其记忆输出接口与多语言对话兼容，为空壳的FlameWorker提示构建器提供统一的英文记忆文本，适用于社交机器人、虚拟伴侣、心理健康辅助等持续性互动场景。

数据集最近研究