zzoceanpie/yukari-thbwiki
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/zzoceanpie/yukari-thbwiki
下载链接
链接失效反馈官方服务:
资源简介:
东方Project角色「八云紫」的游戏原文对话数据集,用于LLM角色扮演微调。数据来源于THBWiki的中文翻译,并包含由Teacher模型生成的玩家发言。数据格式为JSON,包含玩家发言和角色台词。
Game original dialogue dataset of the Touhou Project character "Yukari Yakumo" for LLM roleplay fine-tuning. The data comes from the Chinese translation of THBWiki and includes player speeches generated by the Teacher model. The data format is JSON, containing player speeches and character lines.
提供机构:
zzoceanpie
搜集汇总
数据集介绍

构建方式
该数据集专为大型语言模型角色扮演微调而设计,聚焦于东方Project中极具魅力的角色「八云紫」。其构建匠心独运,核心台词全部萃取自THBWiki平台权威的中文翻译文本,确保了角色语言的原汁原味与经典属性。为了适配对话场景,项目采用Teacher模型(mimo-v2.5-pro)依据游戏上下文精心反向生成对应的玩家发言,从而形成完整的角色互动对。最终,数据以标准的JSON格式封装,每个样本包含由系统标签引导的玩家指令与八云紫的原创台词输出,结构清晰,便于模型直接学习。
特点
本数据集体量精炼,规模不足千条,却浓缩了八云紫在游戏中的核心语言精髓。其最大特色在于高度尊重原始素材,所有台词均来自THBWiki的社区翻译,并严格遵循非商业性相同方式共享许可。数据集明确区分了角色的官方版权(归上海爱丽丝幻乐团/ZUN所有)与二次创作属性,同时在格式中融入角色扮演标签,使得微调后的模型能精准捕捉八云紫优雅、神秘且略带威严的语风,非常适合用于构建沉浸式角色对话体验。
使用方法
数据集适用文本生成任务,特别是角色扮演场景下的监督式微调。使用时,可直接将JSON格式的样本作为训练数据,输入结构为系统标签与玩家发言的组合,模型需要学习输出对应的八云紫台词。研究人员需注意遵守东方Project的二次创作指南及CC BY-NC-SA 4.0许可协议,标明数据来源与角色版权信息。若在学术成果中引用,推荐使用配套的BibTeX条目进行标注,以维护知识共享与版权合规的平衡。
背景与挑战
背景概述
在大型语言模型(LLM)微调领域,角色扮演对话数据集是提升模型叙事与人格化能力的关键资源。由研究者zzoceanpie于2026年创建的八云紫角色对话数据集(yukari-thbwiki),聚焦东方Project中人气角色“八云紫”的游戏原文对话,旨在为LLM提供高质量的中文角色扮演微调样本。数据集源自古籍级社区资源THBWiki的中文翻译文本,并借助Teacher模型反向生成玩家发言,实现了游戏语境与模型训练的深度耦合。作为东方Project非官方二次创作的典范,该数据集在非商业许可框架下,为粉丝社区与AI研究搭建了桥梁,对提升LLM在特定架空世界观中的语感与角色一致性具有独特价值。
当前挑战
该数据集面临的领域挑战集中于如何精准还原八云紫这一角色的神秘、睿智且略带戏谑的独特语体,克服LLM在角色扮演中常见的风格泛化与性格漂移问题。构建过程中存在两大难点:一是源自THBWiki的原文台词受限于游戏剧情片段,缺乏持续性对话的语料支撑,需依赖Teacher模型反向生成玩家发言以补全交互场景;二是需严格遵守东方Project二次创作指南与CC BY-NC-SA许可协议,在合法合规前提下完成数据衍生与发布,避免与原作版权及社区倡议产生冲突。
常用场景
经典使用场景
在语言模型微调与角色扮演领域,yukari-thbwiki数据集为构建具有特定角色人格的对话系统提供了精粹的语料资源。它汇聚了东方Project中八云紫这一角色在游戏原作中的中文对话原文,并经由大语言模型逆向生成对应的玩家发言,形成结构化的指令-输出对。这一设计使其成为角色扮演微调(SFT)任务中的经典选择,研究者可借助该数据集训练模型习得八云紫独特的语言风格、思维逻辑与世界观表达,从而在对话中高度还原角色的神秘气质与机智谈吐。
衍生相关工作
基于yukari-thbwiki数据集,学术界与社区衍生出多个富有启发的相关工作。一方面,研究者将其作为基准数据,探索不同微调策略(如LoRA、QLoRA)对角色扮演任务效果的影响,并对比基座模型在角色一致性保持方面的表现。另一方面,该数据集启发了针对其他东方Project角色的对话数据集构建方法,推动了系列化角色语料库的生态建设。此外,数据集的逆向生成策略被后续工作借鉴,用于从现有叙事文本中自动生成问答对,从而拓展了角色扮演数据生产的半监督范式。
数据集最近研究
最新研究方向
在角色扮演与对话生成的前沿领域,基于东方Project角色八云紫游戏原文构建的微调数据集正引领着一股将经典IP与大型语言模型深度融合的浪潮。该数据集巧妙撷取THBWiki的中文翻译台词,并经由Teacher模型反向生成玩家语境,为LLM的角色一致性对话能力提供了稀缺的高质量训练素材。此举不仅呼应了非官方二次创作与AI技术结合的伦理探讨,也推动了针对虚构角色性格与语言风格精准建模的研究方向,其遵循CC BY-NC-SA协议的开源精神,更在保护原作权益的同时,为社区驱动的个性化AI叙事拓展了崭新维度。
以上内容由遇见数据集搜集并总结生成



