five

Kingfall-Roleplay

收藏
Hugging Face2026-05-28 更新2026-05-29 收录
下载链接:
https://huggingface.co/datasets/CausalLM/Kingfall-Roleplay
下载链接
链接失效反馈
官方服务:
资源简介:
Kingfall-Roleplay 是一个用于角色扮演任务的合成对话数据集,作为由 Gemini Kingfall 模型生成的大规模语料库的预览子集公开发布。该数据集包含 10,000 条经过改写和筛选的对话样本,旨在展示 Kingfall 模型在角色理解、世界知识和叙事生成方面的能力,同时通过技术处理降低了数据溯源风险。数据来源于一个长期合作伙伴,在 Kingfall 模型短暂可用的窗口期内通过 Gemini API 于 EEA 地区批量生成,并确保符合相关数据使用条款。数据集中的对话围绕来自各类作品(如小说、影视等)的虚构角色展开,这些角色选自 Kingfall 模型在知识蒸馏任务中表现出色的样本。数据构建过程基于原作品的角色关系和设定,为每对角色生成了双向的角色扮演对话,并经过后处理以提升对话的一致性、相关性以及角色人格的保持度。每条数据记录为一个对话列表,其中包含交替的 Human 和 Assistant 消息。Human 消息通常用于发起或参与角色扮演场景,而 Assistant 消息则严格遵循特定的系统提示:在首轮回复中,助手会清晰概述双方角色的性格特征和当前场景的背景设定,随后以符合角色的开场台词和动作进入对话,并在后续交互中始终保持一致的角色扮演。数据集支持英语、中文、日语和德语四种语言。该数据集主要用于训练或评估沉浸式角色扮演对话系统,研究大语言模型在角色扮演、人物一致性保持和叙事生成等任务上的表现。作为预览版本,它提供了高质量的研究样例,其完整版本或更多衍生数据可能在后续发布。

Kingfall-Roleplay is a synthetic dialogue dataset for role-playing tasks, publicly released as a preview subset of a large-scale corpus generated by the Gemini Kingfall model. The dataset contains 10,000 rewritten and filtered dialogue samples, designed to showcase the Kingfall models capabilities in character understanding, world knowledge, and narrative generation, while reducing data traceability risks through technical processing. The data originates from a long-term partner, batch-generated via the Gemini API in the EEA region during a brief availability window of the Kingfall model, ensuring compliance with relevant data usage terms. Dialogues in the dataset revolve around fictional characters from various works (e.g., novels, films), selected from samples where the Kingfall model excelled in knowledge distillation tasks. The data construction process is based on the original works character relationships and settings, generating bidirectional role-playing dialogues for each pair of characters, with post-processing to enhance dialogue consistency, relevance, and character persona retention. Each data record is a dialogue list containing alternating Human and Assistant messages. Human messages typically initiate or participate in role-playing scenarios, while Assistant messages strictly follow a specific system prompt: in the first response, the assistant clearly outlines the personality traits of both characters and the background setting of the current scene, then enters the dialogue with opening lines and actions consistent with the characters, maintaining consistent role-playing in subsequent interactions. The dataset supports four languages: English, Chinese, Japanese, and German. It is primarily used for training or evaluating immersive role-playing dialogue systems and studying the performance of large language models in tasks such as role-playing, character consistency maintenance, and narrative generation. As a preview version, it provides high-quality research examples, with the full version or more derivative data potentially released later.
提供机构:
CausalLM
创建时间:
2026-05-28
原始信息汇总

数据集概述

  • 数据集名称: CausalLM/Kingfall-Roleplay
  • 类型: 大规模合成语料库的预览子集,由 Gemini Kingfall 模型生成。
  • 规模: 包含 1 万条经过改写的样本,供公开预览和研究使用。
  • 语言: 支持英语 (en)、中文 (zh)、日语 (ja)、德语 (de) 四种语言。
  • 许可证: wtfpl (无任何限制许可证)。

数据来源与发布背景

  • 源模型: 数据集基于一个被称为 Kingfall 的保密 Gemini 系列模型生成,据推测可能为 Ultra 级别或高于 Pro 级别,尤其在角色理解方面表现突出。
  • 生成方式: 原始样本通过 Gemini API 在 Kingfall 模型短暂可用期间(A/B 测试)批量生成,生成地点为 EEA 地区。
  • 数据提供: 由长期数据合作伙伴提供,经过改写以降低直接追溯风险。
  • 发布状态: 此为预览版本,并非完整语料库。未来可能发布更多 Kingfall 衍生数据资源。

数据构建方法

  • 角色选择: 角色选自 Kingfall 生成的知识蒸馏样本中出现的角色名称,聚焦于模型掌握程度高的作品与角色。
  • 对话配对: 基于原设定中的角色关系,构建双向角色扮演对话对。
  • 质量筛选: 生成后的对话经过自我审查和验证,以提升一致性、相关性、人格保持能力和角色扮演质量。

数据格式

  • 特征: 包含 conversations 字段,其下有两个子字段:
    • from: 字符串类型,标识对话者(如 "Human" 或 "Assistant")。
    • value: 字符串类型,对话内容。
  • 划分: 仅包含训练集 (train),共 10,000 个样本。
  • 文件路径: 数据文件位于 data/train-*

预期系统提示词

该数据集设计为配合以下系统提示词使用: text You are an immersive roleplay assistant. Place every sentence on a new line. In the first turn, outline the traits for both characters and describe the scene settings. After establishing the background, provide your opening line and actions. Maintain your persona consistently throughout the conversation.

注意:系统提示词未包含在具体数据条目中。

对话结构

  • 起始: 每条对话以 Human 消息开始,邀请模型开启角色扮演。
  • 登场: Assistant 的首次回复先介绍双方角色特征和场景背景。
  • 展开: 完成设定后,Assistant 以开场台词和动作启动角色扮演,并在整个对话中保持一致的角色人格。
搜集汇总
数据集介绍
main_image_url
构建方式
Kingfall-Roleplay数据集作为Gemini Kingfall模型生成的合成语料库的预览子集,其构建策略兼具精密性与系统性。研究团队首先从Kingfall模型产出的知识蒸馏样本中遴选角色名称,并聚焦于该模型在角色细节、人际关系、叙事背景及世界知识方面表现卓著的作品。随后,基于原始设定中角色间的内在关联,构建双向角色扮演对话配对。样本在生成后经历严格的自我审查与验证流程,以强化一致性、相关性、人格保持度与角色扮演质量,最终精选出10,000条改写样本供公开研究使用。
特点
该数据集凸显出三大核心特征。其一,来源模型Kingfall被推测为Gemini系列中Ultra级别或高于Pro级别的模型,尤其在角色理解与世界知识领域表现卓越,赋予数据深度与丰富性。其二,对话结构严谨:每段对话以Human消息触发,Assistant响应先详尽介绍角色特征与场景背景,再以开场台词与行动推进角色扮演,且全程维持角色人格的一致性。其三,数据集被视为预览版本,在限制暴露风险与避免直接追溯至原始数据提供方的前提下,展现了高质量角色扮演数据的研究价值。
使用方法
数据集的使用需遵循预设系统提示词,即扮演沉浸式角色扮演助手,每句换行,首轮勾勒双方角色特质与场景设定,此后展开开场台词与行动,并始终保持角色人格一致。数据集以对话格式存储,每条样本包含Human与Assistant的交替轮次,且系统提示词被省略于条目之外。适用场景包括多语言角色扮演系统的训练与评估、基于A/B测试数据的合成语料研究,以及探索大规模语言模型在角色互动和世界知识应用中的表现边界。
背景与挑战
背景概述
Kingfall-Roleplay数据集诞生于大型语言模型在角色扮演与叙事理解领域快速发展的背景之下,其创建源于对Gemini系列中一款代号为Kingfall的保密模型(据推测为Ultra级别)在有限可用期内生成的合成语料进行采样与改写,由CausalLM研究团队于近期发布预览子集,包含1万条经过质量筛选的双向角色扮演对话。该数据集聚焦于利用Kingfall模型在世界知识、角色细节与人物关系方面的卓越表现力,从知识蒸馏样本中提取角色设定,构建符合原叙事背景的沉浸式交互场景,旨在为对话系统的人设保持、上下文连贯性及角色一致性研究提供高质量训练与评估资源。其对相关领域的影响体现在推动了合成数据在复杂角色扮演任务中的可信度验证,并引发了关于大型模型能力边界与数据溯源伦理的广泛讨论。
当前挑战
Kingfall-Roleplay数据集所解决的领域核心挑战在于如何利用合成数据提升角色扮演场景中人设一致性与叙事逻辑的连贯性,克服了传统对话数据集缺乏深度角色塑造与情感记忆的局限。在构建过程中,团队面临多重挑战:首先是在Kingfall模型短暂开放窗口中高效批量生成且符合EEA数据保护条款的样本采集任务;其次是从大规模生成语料中精准筛选出模型掌握最充分的角色与作品设定,避免引入失真或浅层次的人物刻画;而后在构建双向对话配对时需协调角色间关系的自然博弈与场景切换的平滑性,并通过生成后自审查机制过滤掉人格偏离与叙事断裂的样本,最终在降低原始数据可追溯性的同时保留研究价值,这一平衡过程对数据处理伦理与技术实现提出了严格考验。
常用场景
经典使用场景
Kingfall-Roleplay数据集专为沉浸式角色扮演对话系统而构建,其核心应用在于训练与评估大语言模型在多轮交互中的角色一致性保持与情境感知能力。该数据集包含一万条经由高级合成模型Kingfall生成的对话样本,每段对话均遵循严谨的结构范式:以人类用户发起角色扮演邀请为起点,助手模型需首先明确阐述双主角的性格特质与场景背景,随后以符合角色身份的开场白与动作展开叙事。这一设计使得该数据集成为测试和微调模型在虚构叙事、人格模拟与动态情感回应方面表现的理想资源,尤其适用于需要长程记忆与语境连贯性的开放式角色扮演场景。
实际应用
在实际应用中,Kingfall-Roleplay数据集可服务于多个垂直领域。在游戏产业中,它可用于驱动非玩家角色的智能对话,使虚拟角色能够基于预设人格与玩家展开个性鲜明的互动叙事,从而提升游戏沉浸感。在教育与心理训练领域,该数据集可辅助构建模拟人际沟通的训练环境,用于培养学习者在复杂对话场景中的共情能力与策略性回应技巧。在智能伴侣与虚拟助手开发中,该数据集赋予系统以拟人化交流能力,使其能够根据用户情绪与语境调整交互风格,实现更具温度的人机对话体验。
衍生相关工作
Kingfall-Roleplay数据集的发布催生了若干重要研究方向。基于其结构化的双向对话设计,研究者可开发面向角色扮演对话的角色人格一致性评估指标,构建定量衡量模型在长对话中人格漂移程度的评价体系。该数据集还促进了角色知识蒸馏与迁移学习领域的工作,探索如何将Kingfall模型在特定角色设定中的优越表现压缩至更轻量的开放模型。同时,数据集的合成生成与隐私改写流程为后续大规模角色扮演语料库的构建提供了工程范式,引发了关于合成数据质量控制、自洽性审查与伦理合规性讨论的一系列衍生研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作