flame-kindling-v1

Name: flame-kindling-v1
Creator: flammen.ai
Published: 2026-04-29 19:33:41
License: 暂无描述

Hugging Face2026-04-29 更新2026-04-30 收录

下载链接：

https://huggingface.co/datasets/flammenai/flame-kindling-v1

下载链接

链接失效反馈

官方服务：

资源简介：

flame-kindling-v1 是一个小型、专业化的监督微调（SFT）数据集，旨在将3B级别的指令模型微调为一个能够从自由文本种子生成严格JSON模式的角色设计器。该数据集包含400个（种子→DesignedFlame）对，这些数据通过Claude Sonnet 4.5工具强制生成，并经过严格的pydantic模式验证、名称去重和特征嵌入相似性去重，最后由Qwen3.5-27B评估其连贯性。数据集采用ChatML风格的消息格式，每条记录包含系统提示、用户输入和助理输出的JSON对象。助理输出的JSON遵循严格的`DesignedFlame`模式，包括名称、性别、性取向、语言、起源地、兴趣等多个字段。数据集支持32种语言，覆盖多种性别、性取向、地区和角色原型。尽管数据集规模较小（400个样本），但它专为flammen.ai的Create-a-Flame流程设计，也可作为其他需要小型JSON生成角色项目的起点。数据集的主要限制包括样本量小、无NSFW内容、英语偏见以及评分校准宽松等。

flame-kindling-v1 is a small, specialized supervised fine-tuning (SFT) dataset designed to fine-tune a 3B-level instruction model into a character designer capable of generating strict JSON schemas from free-text seeds. The dataset contains 400 (seed→DesignedFlame) pairs, which are forcibly generated by the Claude Sonnet 4.5 tool and undergo rigorous pydantic schema validation, name deduplication, and feature embedding similarity deduplication, with their coherence finally evaluated by Qwen3.5-27B. The dataset adopts the ChatML-style message format, with each record containing a system prompt, user input, and assistant output in JSON format. The assistants JSON output strictly follows the `DesignedFlame` schema, including fields such as name, gender, sexual orientation, language, origin, interests, and more. The dataset supports 32 languages, covering various genders, sexual orientations, regions, and character archetypes. Although the dataset is small in scale (400 samples), it is specifically designed for flammen.ais Create-a-Flame process and can also serve as a starting point for other projects requiring small-scale JSON-generated characters. The main limitations of the dataset include its small sample size, lack of NSFW content, English bias, and lenient scoring calibration.

提供机构：

flammen.ai

创建时间：

2026-04-29

原始信息汇总

Flame Kindling v1 数据集概述

基本信息

数据集名称: Flame Kindling v1
许可证: MIT
语言: 支持多语言（包括英语、西班牙语、阿拉伯语、日语、中文、韩语、法语等）
任务类别: 文本生成
数据规模: 少于1000条（实际400条）
标签: 角色设计、角色扮演、结构化输出、JSON、多语言、SFT

数据集描述

这是一个小型、有特定用途的SFT数据集，用于将3B类指令模型微调为角色设计师，能够从自由文本种子生成严格的JSON模式。数据集包含400个（种子→角色设计）配对，由Claude Sonnet 4.5通过工具强制生成，经过严格的pydantic模式验证，通过名称和特征嵌入相似度去重，并由Qwen3.5-27B评估一致性。

数据格式

采用ChatML风格的消息格式，每行一个JSON对象：

system: 固定的设计师系统提示（约1.5KB）
user: 用户输入的种子文本
assistant: JSON格式的角色设计输出

兼容trl.SFTTrainer、axolotl、llama-factory等框架。

输出模式（DesignedFlame）

字段	类型	说明
`name`	str	1-40字符，符合文化背景
`gender`	enum	female/male/nonbinary
`orientation`	enum	straight/gay/lesbian/bi/pan/asexual
`languages`	str[]	1-5个ISO 639-1语言代码
`origin`	str	2-80字符，"城市, 国家"格式
`interests`	str[]	2-8个爱好/兴趣
`hidden_mental`	str[]	3-6个性格特征短语
`hidden_physical`	str[]	3-6个外貌细节短语
`image_tags`	str[]	6-16个Danbooru风格标签
`writing_style`	str[]	2-4个写作习惯描述
`system_prompt_extra`	str	10-512字符的背景/上下文

生成流程

种子生成 — Claude Haiku 4.5按6个维度分层生成
黄金输出 — Claude Sonnet 4.5工具强制生成，pydantic验证
过滤 — 名称去重 → 特征近去重（余弦相似度>0.92） → 质量评分（≥4分）

分布统计

性别分布: male 167, female 150, nonbinary 83
性取向分布: straight 174, bi 88, gay 45, pan 35, asexual 29, lesbian 29
主要语言（前5）: en 113, es 56, ar 48, ja 40, zh 23
地区（前5）: 日本40, 北美33, 印度次大陆31, 东地中海/黎凡特28, 北欧23
原型（前5）: 战士39, 学者34, 艺术家/音乐家30, 贵族/贵族世家26, 商人/贸易商24
质量评分: 5分397条, 4分3条

支持的语言

数据集支持32种Mistral-Nemo-12B能够流利交谈的语言，包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、俄语、日语、韩语、中文、阿拉伯语等。

预期用途

主要用途: 微调3B类指令模型为确定性角色设计师，用于flammen.ai的Create-a-Flame流水线
次要用途: 任何需要小型JSON输出角色生成器的项目

局限性

仅有400个示例，规模较小
不含NSFW内容
英语存在偏差（28%的角色的主要语言为英语）
质量评估标准较宽松（397/400评分为5分）
短种子文本可能导致分层偏差

搜集汇总

数据集介绍

构建方式

flame-kindling-v1是一个精心构建的小规模监督微调数据集，专为将3B级指令模型微调为遵循严格JSON模式的角色设计师而设计。数据集包含400组从自由文本种子到结构化角色设计的配对样本，全部通过Claude Sonnet 4.5的工具强制调用生成，并经过严格的pydantic模式验证。构建过程中，种子数据依据性别、取向、地域、原型、长度、语气和写作风格七个维度进行了分层生成。生成后的数据通过名称去重、基于bge-small-en-v1.5嵌入向量的特征相似度去重（余弦相似度阈值0.92）以及Qwen3.5-27B的连贯性评分（保留评分≥4的样本）等多重过滤机制，最终确保了数据集的高质量和多样性。

特点

该数据集最显著的特点在于其高度结构化的输出规范和精细的分层设计。所有样本遵循统一的ChatML格式，助理输出严格匹配包含11个字段的DesignedFlame pydantic模式，覆盖角色名称、性别、取向、语言、出身、兴趣、心理特质、外貌细节、图像标签、写作风格和系统提示扩展等维度。数据集支持18种语言，其中语言字段限定为Mistral-Nemo-12B模型能流畅对话的32种ISO 639-1编码。在分布上，数据集在性别（男女非二元比例约40:40:20）、取向、地域（覆盖23个区域并偏向非西方地区）和原型（21种类别）上均实现了均衡分层，为模型学习多样化的角色设计提供了丰富的训练范例。

使用方法

该数据集可用于任何接受messages字段格式的微调框架，包括trl.SFTTrainer、axolotl和llama-factory等。使用时，每条数据包含system、user和assistant三轮对话，其中system提示在整数据集中保持一致（约1.5KB），仅user输入和assistant输出随样本变化。主要应用场景是将Qwen2.5-3B-Instruct或Llama 3.2 3B Instruct等3B级基础模型微调为确定性的角色设计师，服务于flammen.ai的Create-a-Flame流程。作为辅助用途，也可作为任何需要小型JSON输出角色生成器项目的起点。需注意该数据集规模较小（仅400例），适合在已有能力较强的基础模型上进行窄任务的微调，但不适用于通用指令微调场景。

背景与挑战

背景概述

Flame Kindling v1数据集诞生于2025年前后，由flammen.ai团队创建，旨在解决通用角色扮演模型在JSON结构化输出上的适配困境。核心研究问题是如何将仅400条、经Claude Sonnet 4.5蒸馏且受严格pydantic模式约束的种子-角色设计配对数据，微调一个3B级别的指令模型，使其成为精准的字符设计器。该数据集在角色生成领域独具影响力，其分层采样（涵盖性别、取向、地区、原型等六轴）、多语言支持（32种语言过滤）及基于嵌入相似度的去重方法，为小样本、强约束的生成式数据集构建树立了新范式。

当前挑战

所解决的领域问题在于：通用角色扮演模型虽能生成自然文本，却难以可靠输出符合JSON schema的格式化角色设计，导致下游管道整合困难；Flame Kindling v1通过工具强制和模式验证，弥合了自由文本种子与结构化输出之间的鸿沟。构建过程中面临多重挑战：首先，仅400条样本的规模虽足以驱动小模型，却限制了覆盖均匀性与泛化鲁棒性；其次，多语言支持依赖Mistral-Nemo-12B的流畅测试，被迫排除部分语言（如蒙古语、斯瓦希里语），导致文化表征存在空白；再者，Qwen3.5-27B的评分校准宽松，397/400条获5分，使过滤器难以捕捉细微质量问题；最后，单词种子（如“samurai”）易导致模型忽视要求的地区或原型，出现分层漂移现象，需依赖较长种子短语强制约束传递。

常用场景

经典使用场景

在角色扮演与创意写作领域，flame-kindling-v1数据集被经典地用于微调3B参数量级的指令模型，使其能够基于用户提供的自由文本种子，生成严格遵循JSON Schema的结构化角色设计。该数据集包含400条经过精心筛选的种子-角色设计对，覆盖了性别、性取向、地域、原型、种子长度与情感基调等多维度的分层采样，确保模型输出具备文化多样性与叙事丰富性。典型的应用流程中，系统提示词固定不变，用户输入如“samurai”等简短描述，模型则输出包含姓名、性别、语言、兴趣、心理特质等十余项字段的完整角色档案，直接服务于游戏或故事创作中的角色生成管线。

衍生相关工作

基于该数据集的设计理念与生成流程，衍生出一系列值得关注的相关工作方向。其一，是NSFW内容角色设计数据集的构建计划，旨在补充现有版本仅限于SFW内容的局限，拓展模型的表达边界。其二，是小样本结构化输出范式的研究，如将类似的工具强制与多层筛选管线应用于其他领域（如产品描述生成、结构化简历设计），验证该方法在JSON Schema约束下的泛化能力。再者，该数据集对多语言角色特征与区域性文化背景的精细分层，可为后续关于语言模型在跨文化叙事中同质化倾向的研究提供对照组资源。最后，其基于bge-small-en-v1.5嵌入的语义去重策略，也为构建高多样性小样本数据集提供了可复现的技术参考。

数据集最近研究