five

flame-kindling-v1

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/flammenai/flame-kindling-v1
下载链接
链接失效反馈
官方服务:
资源简介:
flame-kindling-v1 是一个小型、专业化的监督微调(SFT)数据集,旨在将3B级别的指令模型微调为一个能够从自由文本种子生成严格JSON模式的角色设计器。该数据集包含400个(种子→DesignedFlame)对,这些数据通过Claude Sonnet 4.5工具强制生成,并经过严格的pydantic模式验证、名称去重和特征嵌入相似性去重,最后由Qwen3.5-27B评估其连贯性。数据集采用ChatML风格的消息格式,每条记录包含系统提示、用户输入和助理输出的JSON对象。助理输出的JSON遵循严格的`DesignedFlame`模式,包括名称、性别、性取向、语言、起源地、兴趣等多个字段。数据集支持32种语言,覆盖多种性别、性取向、地区和角色原型。尽管数据集规模较小(400个样本),但它专为flammen.ai的Create-a-Flame流程设计,也可作为其他需要小型JSON生成角色项目的起点。数据集的主要限制包括样本量小、无NSFW内容、英语偏见以及评分校准宽松等。

flame-kindling-v1 is a small, specialized supervised fine-tuning (SFT) dataset designed to fine-tune a 3B-level instruction model into a character designer capable of generating strict JSON schemas from free-text seeds. The dataset contains 400 (seed→DesignedFlame) pairs, which are forcibly generated by the Claude Sonnet 4.5 tool and undergo rigorous pydantic schema validation, name deduplication, and feature embedding similarity deduplication, with their coherence finally evaluated by Qwen3.5-27B. The dataset adopts the ChatML-style message format, with each record containing a system prompt, user input, and assistant output in JSON format. The assistants JSON output strictly follows the `DesignedFlame` schema, including fields such as name, gender, sexual orientation, language, origin, interests, and more. The dataset supports 32 languages, covering various genders, sexual orientations, regions, and character archetypes. Although the dataset is small in scale (400 samples), it is specifically designed for flammen.ais Create-a-Flame process and can also serve as a starting point for other projects requiring small-scale JSON-generated characters. The main limitations of the dataset include its small sample size, lack of NSFW content, English bias, and lenient scoring calibration.
提供机构:
flammen.ai
创建时间:
2026-04-29
原始信息汇总

Flame Kindling v1 数据集概述

基本信息

  • 数据集名称: Flame Kindling v1
  • 许可证: MIT
  • 语言: 支持多语言(包括英语、西班牙语、阿拉伯语、日语、中文、韩语、法语等)
  • 任务类别: 文本生成
  • 数据规模: 少于1000条(实际400条)
  • 标签: 角色设计、角色扮演、结构化输出、JSON、多语言、SFT

数据集描述

这是一个小型、有特定用途的SFT数据集,用于将3B类指令模型微调为角色设计师,能够从自由文本种子生成严格的JSON模式。数据集包含400个(种子→角色设计)配对,由Claude Sonnet 4.5通过工具强制生成,经过严格的pydantic模式验证,通过名称和特征嵌入相似度去重,并由Qwen3.5-27B评估一致性。

数据格式

采用ChatML风格的消息格式,每行一个JSON对象:

  • system: 固定的设计师系统提示(约1.5KB)
  • user: 用户输入的种子文本
  • assistant: JSON格式的角色设计输出

兼容trl.SFTTrainer、axolotl、llama-factory等框架。

输出模式(DesignedFlame)

字段 类型 说明
name str 1-40字符,符合文化背景
gender enum female/male/nonbinary
orientation enum straight/gay/lesbian/bi/pan/asexual
languages str[] 1-5个ISO 639-1语言代码
origin str 2-80字符,"城市, 国家"格式
interests str[] 2-8个爱好/兴趣
hidden_mental str[] 3-6个性格特征短语
hidden_physical str[] 3-6个外貌细节短语
image_tags str[] 6-16个Danbooru风格标签
writing_style str[] 2-4个写作习惯描述
system_prompt_extra str 10-512字符的背景/上下文

生成流程

  1. 种子生成 — Claude Haiku 4.5按6个维度分层生成
  2. 黄金输出 — Claude Sonnet 4.5工具强制生成,pydantic验证
  3. 过滤 — 名称去重 → 特征近去重(余弦相似度>0.92) → 质量评分(≥4分)

分布统计

  • 性别分布: male 167, female 150, nonbinary 83
  • 性取向分布: straight 174, bi 88, gay 45, pan 35, asexual 29, lesbian 29
  • 主要语言(前5): en 113, es 56, ar 48, ja 40, zh 23
  • 地区(前5): 日本40, 北美33, 印度次大陆31, 东地中海/黎凡特28, 北欧23
  • 原型(前5): 战士39, 学者34, 艺术家/音乐家30, 贵族/贵族世家26, 商人/贸易商24
  • 质量评分: 5分397条, 4分3条

支持的语言

数据集支持32种Mistral-Nemo-12B能够流利交谈的语言,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、俄语、日语、韩语、中文、阿拉伯语等。

预期用途

  • 主要用途: 微调3B类指令模型为确定性角色设计师,用于flammen.ai的Create-a-Flame流水线
  • 次要用途: 任何需要小型JSON输出角色生成器的项目

局限性

  • 仅有400个示例,规模较小
  • 不含NSFW内容
  • 英语存在偏差(28%的角色的主要语言为英语)
  • 质量评估标准较宽松(397/400评分为5分)
  • 短种子文本可能导致分层偏差
搜集汇总
数据集介绍
main_image_url
构建方式
flame-kindling-v1是一个精心构建的小规模监督微调数据集,专为将3B级指令模型微调为遵循严格JSON模式的角色设计师而设计。数据集包含400组从自由文本种子到结构化角色设计的配对样本,全部通过Claude Sonnet 4.5的工具强制调用生成,并经过严格的pydantic模式验证。构建过程中,种子数据依据性别、取向、地域、原型、长度、语气和写作风格七个维度进行了分层生成。生成后的数据通过名称去重、基于bge-small-en-v1.5嵌入向量的特征相似度去重(余弦相似度阈值0.92)以及Qwen3.5-27B的连贯性评分(保留评分≥4的样本)等多重过滤机制,最终确保了数据集的高质量和多样性。
特点
该数据集最显著的特点在于其高度结构化的输出规范和精细的分层设计。所有样本遵循统一的ChatML格式,助理输出严格匹配包含11个字段的DesignedFlame pydantic模式,覆盖角色名称、性别、取向、语言、出身、兴趣、心理特质、外貌细节、图像标签、写作风格和系统提示扩展等维度。数据集支持18种语言,其中语言字段限定为Mistral-Nemo-12B模型能流畅对话的32种ISO 639-1编码。在分布上,数据集在性别(男女非二元比例约40:40:20)、取向、地域(覆盖23个区域并偏向非西方地区)和原型(21种类别)上均实现了均衡分层,为模型学习多样化的角色设计提供了丰富的训练范例。
使用方法
该数据集可用于任何接受messages字段格式的微调框架,包括trl.SFTTrainer、axolotl和llama-factory等。使用时,每条数据包含system、user和assistant三轮对话,其中system提示在整数据集中保持一致(约1.5KB),仅user输入和assistant输出随样本变化。主要应用场景是将Qwen2.5-3B-Instruct或Llama 3.2 3B Instruct等3B级基础模型微调为确定性的角色设计师,服务于flammen.ai的Create-a-Flame流程。作为辅助用途,也可作为任何需要小型JSON输出角色生成器项目的起点。需注意该数据集规模较小(仅400例),适合在已有能力较强的基础模型上进行窄任务的微调,但不适用于通用指令微调场景。
背景与挑战
背景概述
Flame Kindling v1数据集诞生于2025年前后,由flammen.ai团队创建,旨在解决通用角色扮演模型在JSON结构化输出上的适配困境。核心研究问题是如何将仅400条、经Claude Sonnet 4.5蒸馏且受严格pydantic模式约束的种子-角色设计配对数据,微调一个3B级别的指令模型,使其成为精准的字符设计器。该数据集在角色生成领域独具影响力,其分层采样(涵盖性别、取向、地区、原型等六轴)、多语言支持(32种语言过滤)及基于嵌入相似度的去重方法,为小样本、强约束的生成式数据集构建树立了新范式。
当前挑战
所解决的领域问题在于:通用角色扮演模型虽能生成自然文本,却难以可靠输出符合JSON schema的格式化角色设计,导致下游管道整合困难;Flame Kindling v1通过工具强制和模式验证,弥合了自由文本种子与结构化输出之间的鸿沟。构建过程中面临多重挑战:首先,仅400条样本的规模虽足以驱动小模型,却限制了覆盖均匀性与泛化鲁棒性;其次,多语言支持依赖Mistral-Nemo-12B的流畅测试,被迫排除部分语言(如蒙古语、斯瓦希里语),导致文化表征存在空白;再者,Qwen3.5-27B的评分校准宽松,397/400条获5分,使过滤器难以捕捉细微质量问题;最后,单词种子(如“samurai”)易导致模型忽视要求的地区或原型,出现分层漂移现象,需依赖较长种子短语强制约束传递。
常用场景
经典使用场景
在角色扮演与创意写作领域,flame-kindling-v1数据集被经典地用于微调3B参数量级的指令模型,使其能够基于用户提供的自由文本种子,生成严格遵循JSON Schema的结构化角色设计。该数据集包含400条经过精心筛选的种子-角色设计对,覆盖了性别、性取向、地域、原型、种子长度与情感基调等多维度的分层采样,确保模型输出具备文化多样性与叙事丰富性。典型的应用流程中,系统提示词固定不变,用户输入如“samurai”等简短描述,模型则输出包含姓名、性别、语言、兴趣、心理特质等十余项字段的完整角色档案,直接服务于游戏或故事创作中的角色生成管线。
衍生相关工作
基于该数据集的设计理念与生成流程,衍生出一系列值得关注的相关工作方向。其一,是NSFW内容角色设计数据集的构建计划,旨在补充现有版本仅限于SFW内容的局限,拓展模型的表达边界。其二,是小样本结构化输出范式的研究,如将类似的工具强制与多层筛选管线应用于其他领域(如产品描述生成、结构化简历设计),验证该方法在JSON Schema约束下的泛化能力。再者,该数据集对多语言角色特征与区域性文化背景的精细分层,可为后续关于语言模型在跨文化叙事中同质化倾向的研究提供对照组资源。最后,其基于bge-small-en-v1.5嵌入的语义去重策略,也为构建高多样性小样本数据集提供了可复现的技术参考。
数据集最近研究
最新研究方向
该数据集聚焦于面向角色扮演任务的结构化JSON输出微调,代表了大语言模型在游戏化角色设计、交互式叙事生成等前沿领域的重要突破。通过与Claude和Qwen等前沿模型的蒸馏与验证,flame-kindling-v1探索了从自由文本种子到严格模式化角色设计方案的精炼路径。其多语言、多文化、多性别及多取向的精细分层采样策略,不仅回应了生成式AI在人物塑造中的多元包容性诉求,也为细粒度可控生成提供了高价值范例。这一工作在角色设计师与对话模型之间架设了语义与格式的桥梁,提升了定制化虚拟角色生产的关键效率,暗示了LLM在特定垂直任务中取代人工设计逻辑的潜力和范式转移方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作