zzoceanpie/yukari-synthetic
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/zzoceanpie/yukari-synthetic
下载链接
链接失效反馈官方服务:
资源简介:
东方Project角色「八云紫」的中文对话数据集,用于LLM角色扮演微调(SFT + SimPO)。所有文本均为AI生成,玩家发言来自真实中文日常对话,八云紫回复由Teacher模型按角色性格和指定情绪生成,并带有8维Plutchik向量离散化为7级中文标签的情感标签。数据集不含任何东方Project游戏原文或THBWiki翻译文本。数据格式包括SFT和Preference两种,分别用于不同的训练目的。数据集遵循Apache 2.0许可,但角色版权归上海爱丽丝幻乐团/ZUN所有。
A Chinese dialogue dataset for the Touhou Project character Yukari Yakumo, used for LLM roleplay fine-tuning (SFT + SimPO). All texts are AI-generated, with player utterances sourced from real Chinese daily conversations and Yukaris responses generated by a Teacher model based on character personality and specified emotions, tagged with 8-dimensional Plutchik vectors discretized into 7-level Chinese labels. The dataset contains no original Touhou Project game texts or THBWiki translations. Data formats include SFT and Preference for different training purposes. The dataset is licensed under Apache 2.0, but character copyright belongs to Team Shanghai Alice/ZUN.
提供机构:
zzoceanpie
搜集汇总
数据集介绍

构建方式
本数据集以东方Project角色「八云紫」为核心,采用纯AI合成方式构建。其对话语料来源别具匠心:玩家发言部分取自HundredCV-Chat数据集中的真实中文日常对话,而八云紫的回复则依托Teacher模型(mimo-v2.5-pro)依据角色性格与指定情绪生成。为赋予对话更细腻的情感层次,数据集引入了8维Plutchik情感向量,并将其离散化为7级中文标签,以尖括号括起的形式嵌入对话指令中,从而精确控制角色的情感表达基调。
使用方法
使用者可直接加载JSONL文件进行模型微调。对于SFT任务,可将instruction字段包含情感标签及玩家发言作为输入,output字段作为目标回复;对于偏好对齐任务,则可利用prompt字段包含情感标签与玩家发言,以chosen和rejected字段分别作为正向与负向示例。该数据集兼容主流微调框架,适用于基于八云紫角色个性的对话生成任务,并能有效提升模型在情感表达与角色一致性方面的表现。
背景与挑战
背景概述
在大型语言模型(LLM)角色扮演微调领域,高质量、多样化的对话数据集的匮乏一直是制约模型角色一致性表现的关键瓶颈。为此,研究者zzoceanpie于2026年创建了yukari-synthetic数据集,专注于东方Project中极具魅力的角色“八云紫”的角色扮演对话。该数据集由小米MiMo-V2.5-Pro模型全自动合成,以HundredCV-Chat数据集中的真实中文日常对话为玩家发言基础,通过8维Plutchik情感标签指导生成符合八云紫性格与情绪状态的回复,形成约千条规模的SFT与偏好数据。作为非官方二次创作,数据集采用Apache 2.0许可发布,旨在为LLM角色扮演微调(如SFT+SimPO)提供标准化、可复现的训练资源,尤其对中文二次元领域的人设保持研究具有重要推动价值。
当前挑战
yukari-synthetic数据集面临的核心挑战包括:其一,领域问题层面,LLM角色扮演需在保持开放域对话流畅性的同时严格绑定角色性格(如八云紫的睿智与慵懒),现有数据往往无法兼顾自然交流与人设一致性,导致模型易产生“角色崩塌”;其二,构建过程中,纯AI合成范式面临双重困境——一方面,自动化生成需依赖强大的教师模型(如MiMo-V2.5-Pro)进行角色模仿,但生成文本可能在细节上偏离原作设定,需人工或模型辅助筛查;另一方面,情感标签的离散化(8维至7级中文标签)与角色语气的映射关系高度不确定,易造成回复中情绪表达生硬或错位,而有限的数据规模(1K-10K)进一步放大了样本多样性不足与过拟合风险。
常用场景
经典使用场景
该数据集专为大型语言模型(LLM)的角色扮演微调而设计,尤其适用于监督式微调(SFT)与偏好优化(SimPO)任务。通过提供「八云紫」这一经典东方Project角色在多样化情绪状态下的对话样本,数据集使模型能够学习如何根据用户输入和指定情感标签生成符合角色性格、语气与世界观的自然回复。其特有的8维Plutchik情感离散化标签系统为多轮角色互动中的情感一致性控制提供了结构化训练基础,成为构建沉浸式二次元角色对话系统的关键数据支撑。
解决学术问题
该数据集旨在解决角色扮演对话系统中角色一致性维持与情感可控生成两大核心学术难题。传统对话数据集往往缺乏对虚拟角色性格与情感表达的精细标注,导致模型在长程交互中容易出现角色言行偏离、情感失谐等问题。yukari-synthetic通过引入多维情感标签与偏好排序对,为研究者提供了在可控条件下探索情感对角色语言风格影响的实验平台,推动了可解释性角色建模、情感感知对话生成及基于偏好的模型对齐等前沿方向的深入研究。
实际应用
在实际应用中,该数据集直接服务于二次元文化社区中的智能交互系统开发,例如动漫角色聊天机器人、虚拟主播互动后台及同人游戏的非玩家角色(NPC)对话引擎。通过对八云紫这一高辨识度角色的精准复现,开发者能够快速构建出具有稳定人格特征与情感表现力的虚拟对话体,提升用户在角色扮演、剧情沉浸、情感陪伴等场景中的交互体验。此外,数据集的Apache-2.0许可协议降低了商业与个人项目的使用门槛,推动了AI在亚文化娱乐领域的普惠落地。
数据集最近研究
最新研究方向
当前,基于合成数据驱动的大语言模型角色扮演微调已成为提升对话系统拟人化与情感共鸣能力的前沿路径。yukari-synthetic数据集以东方Project核心人物八云紫为原型,通过纯AI合成技术生成带有精细情感标签(基于Plutchik情感轮盘的七级中文离散化标签)的角色对话,精准捕捉了该角色在幻想乡背景下亦正亦邪、深不可测的语言风格与情绪张力。这一研究动向呼应了近期大模型对齐技术从简单指令遵从(SFT)向偏好优化(SimPO)的演进,强调了高质量合成数据在降低人工标注成本、提升跨风格泛化能力方面的战略价值。该数据集的发布不仅深化了虚拟角色人格化建模的探索,也为中文二次元领域的大规模定制化角色引擎提供了可复用的开源基座。
以上内容由遇见数据集搜集并总结生成



