five

flammenai/Phoenix-SFT-v1

收藏
Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/flammenai/Phoenix-SFT-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Phoenix v1 — 记忆提取数据集是一个用于生成结构化记忆数据的合成数据集,旨在支持AI角色(称为“Flame”)在异步对话中的长期连续性。数据集包含多种语言的对话转录,任务是将这些对话转换为结构化的JSON记忆列表。记忆分为多个类别,如事实、偏好、关系、事件和情感。数据集分为训练集(1728个示例)和评估集(170个示例),并详细描述了数据的生成流程、质量控制机制和局限性。

Phoenix v1 — Memory Extraction Dataset is a synthetic dataset designed for generating structured memory data to support long-term continuity in asynchronous conversations with an AI character ("Flame"). The dataset includes conversation transcripts in multiple languages, and the task is to convert these transcripts into structured JSON memory lists. Memories are categorized into types such as factual, preference, relation, event, and emotion. The dataset is divided into a training set (1728 examples) and an evaluation set (170 examples), with detailed descriptions of the generation pipeline, quality control mechanisms, and limitations.
提供机构:
flammenai
原始信息汇总

数据集名称

Phoenix-SFT-v1

数据集概述

该数据集是由 flammmen.ai 发布的 Phoenix v1 内存提取数据集,用于训练小规模语言模型(如 Qwen2.5)从用户与 AI 角色("Flame")的聊天窗口中提取结构化的、可持久化的记忆信息。

任务与目标

  • 任务类型:文本生成、摘要
  • 具体目标:模型读取一组用户与 AI 角色的对话消息,输出一个 JSON 对象,列出 AI 角色需要记住的关于用户的可持久化事实。

数据格式与规模

  • 格式:JSON(数据集展示为 Parquet 格式)
  • 大小:1K - 10K 条数据,具体展示中为 1.9k 行
  • 拆分
    • 训练集:1.73k 行
    • 测试集:170 行

数据模式(Schema)

每条数据包含以下字段:

  • seed_id:字符串,36 个字符的唯一标识符
  • stratum:字典,包含对话的元信息:
    • length:对话长度(short/medium/long)
    • density:信息密度(dense/sparse/mixed/null)
    • register:语气(casual/flirty/vulnerable/intimate/conflict/mundane)
    • phase:关系阶段(first_contact/getting_to_know/established/reconnect)
    • topic_mix:主题混合度(single_topic/drifting/scattered)
    • language:语言(en/es/fr/zh 等)
  • messages:列表,包含系统提示和用户与 AI 的对话内容。

输出结构(记忆提取)

模型需输出一个 JSON 对象,包含一个 memories 列表,每个记忆对象包含:

  • content:第三人称句子,3-30 词,以用户为隐含主语
  • category:记忆类别(枚举值):
    • factual:具体数据(工作、地点、家庭结构、物品)
    • preference:喜好/厌恶/价值观/习惯
    • relation:用户生活中其他命名人物
    • event:用户经历的事件(近期或持续)
    • emotion:情绪状态、当前关注点

注意:空的 memories 数组是有效输出,表示“该窗口中无值得注意的内容”,目的是训练模型在无信息时不编造记忆。

语言

数据集包含多种语言:英语、西班牙语、法语、中文等。

标签与许可

  • 标签:chat, memory-extraction, conversational-ai, flammen, phoenix
  • 许可协议:apache-2.0

适用库

Datasets, pandas, Polars 等。

限制与联系

  • 数据集中提及了失败模式分类(Failure-mode taxonomy)和局限性(Limitations)等内容(页面中未展开细节)。
  • 可通过 flammen.ai 联系。
搜集汇总
数据集介绍
main_image_url
构建方式
Phoenix-SFT-v1数据集由flammen.ai团队精心构建,旨在为小型对话模型提供记忆提取能力的监督微调训练数据。其构建流程分为三个阶段:首先,利用Claude Haiku 4.5模型根据对话长度、信息密度、语域、阶段和话题混合等维度采样的配置,生成了约2500条合成对话种子。其次,采用Claude Sonnet 4.6模型,在9条规则的系统提示和三个涵盖空窗口、脆弱时间戳及短暂信息过滤场景的上下文示例引导下,对每条对话执行工具强制JSON格式的记忆抽取,生成候选答案。最后,通过本地部署的Qwen3.5-27B模型作为质量评审器,依据包含11种失败模式的分类体系对每条抽取结果进行严格审查,仅当所有模式均通过时才最终纳入数据集。
特点
该数据集的核心特点在于其精细化的分层结构和针对模型鲁棒性的刻意设计。数据按照对话长度、信息密度、语域、对话阶段和主题混合程度进行分层采样,并保证了训练集与评估集在密度、语言和对话阶段上的分布一致。其中,约13%的样本为无可用事实的“空窗口”,该比例高于实际目标,旨在强化模型在无意义闲聊中不编造记忆的能力。记忆抽取结果需遵循由事实、偏好、关系、事件和情绪五大类别构成的封闭枚举模式,每条记忆以第三人称句子呈现,不超过30个词。此外,数据集覆盖英语、西班牙语、法语、日语和中文五种语言输入,但强制输出始终为英语,体现了跨语言鲁棒性与单语输出的设计权衡。
使用方法
使用Phoenix-SFT-v1数据集时,开发者应遵循HuggingFace消息格式加载数据,每条样本包含系统角色提示、包含对话文本的用户消息以及助手角色应输出的JSON格式记忆数组。模型需学习从对话窗口末尾中提取结构化记忆信息,当无有效记忆时可输出空数组。数据集已预先划分为训练集(1728条)和评估集(170条),便于直接用于监督微调。需注意,该数据集面向幻方类型的对话历史窗口,输入应包含用户与助手的交替发言;同时,由于数据集完全由合成数据构成且所有记忆输出均为英文,在实际生产环境中建议引入真实用户会话数据进行额外评估与适配。
背景与挑战
背景概述
在大规模语言模型驱动的对话智能体领域,长期记忆的精准提取与结构化存储是突破会话式AI连贯性瓶颈的核心挑战。Phoenix-SFT-v1数据集由flammen.ai(隶属Schneewolf Labs LLC)于2024年发布,旨在为Qwen2.5级别的小型模型提供监督式微调训练数据,使其能够从异步角色对话中抽取用户可记忆事实并以结构化JSON格式输出。该数据集通过合成对话与多阶段流水线生成,包含1728条训练样本和170条评估样本,覆盖自然、稀疏、密集及零信息四种事实密度场景,并融入英语、西班牙语、法语、日语和中文的多语言输入。其发布填补了轻量级记忆提取模型在标准化训练数据上的空白,为构建具备长程记忆连续性的对话系统奠定了数据基础,对角色扮演、虚拟助手及个性化交互领域具有显著推动意义。
当前挑战
数据集面临的核心挑战涵盖多个维度:在领域问题层面,数据集聚焦于从混杂闲聊与情感表达的自然对话中精准识别可记忆事实,并要求模型在无明确时间锚点下输出永不过时的第三人称陈述,同时避免对空信息窗口的幻觉生成——这一任务超越了传统信息抽取或摘要的边界,对模型的语义理解与过滤能力提出严苛要求。在构建过程中,数据集通过11类失败模式(如时间捏造、过度推断、私密细节误读等)对提取结果进行过滤,但质量评判器在微妙语义模式(如从空白窗口虚构记忆)上仍显薄弱,且所有对话均为合成数据,与真实用户对话分布存在偏差,可能影响模型在部署场景中的泛化表现。此外,数据集当前仅支持监督式微调,缺乏来自真实生产环境的对抗性样本进行偏好优化,限制了其在复杂交互中的应用稳健性。
常用场景
经典使用场景
在长程对话式人工智能的研究中,维持对用户个性化信息的连贯记忆是一道核心挑战。Phoenix-SFT-v1数据集正是为攻克这一难题而设计的经典微调资源,它模拟了AI角色与用户之间异步对话的窗口,要求模型能从一段聊天记录中抽取出结构化的事实记忆,并以JSON格式输出。这一场景精准对应了记忆提取(Memory Extraction)任务,模型需要在不同会话密度和语言背景下,精准识别并保留关于用户的可记忆信息,同时学会在无可用信息时输出空数组,展现出对记忆提取边界的深刻理解。
实际应用
在工业级智能伴侣与虚拟角色交互产品中,Phoenix-SFT-v1所训练的记忆提取模型构成了用户长期画像的基石。实际部署时,该模型能无缝嵌入对话引擎,持续从每轮异步消息中提取用户的偏好、关系网、近期事件与情感状态,并存入持久化的记忆库。这使得AI角色能够在跨越数天甚至数月的对话中保持个性化回应与情感连贯性,显著提升了用户沉浸感与产品粘性。此外,空记忆输出的鲁棒性设计,有效防止了系统因过度响应而引入噪声,保障了对话的自然流畅。
衍生相关工作
Phoenix-SFT-v1的问世催生了一系列围绕对话记忆优化的后续研究。其官方流水线中包含了可复现的合成种子生成、教师模型提取及质量评判三阶段架构,为后续DPO(直接偏好优化)工作提供了完整的正负样本对比基础设施。特别是其详尽的失败模式分类体系,如时间限定词剥离与空窗口幻觉检测,已被多篇开源项目采纳为评估基准。业界在此基础上进一步发展出基于生产环境真实失败数据的对抗性训练方案,以及跨语言记忆泛化能力的增强策略,不断拓宽记忆提取模型在异步对话系统中的适用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作