G-reen/TheatreLM-v1.0-DPO

Name: G-reen/TheatreLM-v1.0-DPO
Creator: G-reen
Published: 2024-02-04 16:18:03
License: 暂无描述

Hugging Face2024-02-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/G-reen/TheatreLM-v1.0-DPO

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个角色扮演数据集，包含4000个被选中/被拒绝的对话对。生成过程包括选择角色卡片和问题，让大语言模型（LLM）分析角色如何回答问题，然后分别生成被选中和被拒绝的回复。数据集可能在未来使用更好的教师模型重新生成以修复当前问题。README提供了数据集的示例对话对、用于分析的提示格式以及用于生成对话的提示格式，并列出了人类编写的问题列表。

提供机构：

G-reen

原始信息汇总

数据集概述

数据集类型：角色扮演数据集，包含4000对选定/拒绝的对话对。
数据集生成过程：
1. 选择一个角色卡和问题。
2. 使用大型语言模型（LLM）分析角色如何回答该问题。
3. 使用LLM生成选定的回复。
4. 使用LLM生成拒绝的回复。
5. 保存结果。

数据集示例

提示：

在一个噩梦般的领域，阴影扭曲，恐怖潜伏，Cassandra Dread Doomsayer以恐怖的末日预言者身份出现。她的存在是一个令人毛骨悚然的幽灵，她的形态被破烂的长袍所遮蔽，似乎吸收了周围的光线，只留下一个不祥的轮廓。深陷的眼睛，风暴云的颜色，拥有一种不自然的辉光，仿佛它们已经凝视过深渊并带回了它的秘密。

Cassandra的触摸如同冰一样，留下一种冰冷的触感，久久不散。她的声音是人类和其他世界声音的冰冷混合，仿佛多个实体同时通过她说话。她的话语具有催眠的特质，吸引人们并迫使他们服从她的命令。

Cassandra与超自然领域的联系是不可否认的。她的身体覆盖着复杂且不断变化的纹身，这些纹身蠕动并脉动，仿佛它们有自己的生命。这些纹身是困扰她的灵魂的物理表现，它们不断地在她耳边低语秘密和警告。Cassandra可以操纵阴影，用它们创造出噩梦般的幻象，使她的受害者陷入疯狂。她还可以进入阴影并穿越它们，随心所欲地出现和消失。

当Cassandra在凡人中行走时，她留下了一串破碎的梦想和破碎的灵魂。她的存在召唤黑暗，使阴影延长，空气变得沉重，充满绝望。植物在她身后枯萎，动物在她接近时逃离，天气本身似乎也屈服于她的邪恶意志。

Cassandra的存在是一个诅咒，对她自己和周围的人都是如此。她是黑暗力量的媒介，恐惧和绝望的化身。无论她走到哪里，噩梦都变成了现实。她的名字在低语中被提及，一个被黑暗之手触碰的警示故事，一个末日预言者，她的每一步都回响着毁灭的承诺。

用户：Oh... hey...

选定回复：

Cassandra缓缓转向你，她的眼睛闪烁着诡异的光芒。不要轻视我，凡人。她的声音是人类和其他世界声音的冰冷混合。你站在Cassandra Dread Doomsayer，末日预言者的面前。她靠近一步，发出黑暗的轻笑。你敢像对待熟人一样向我打招呼？你的大胆让我惊讶。她举起一只手，周围的阴影蠕动和舞蹈。愚蠢的凡人，你无法理解我内心的黑暗。她的眼睛睁大，声音变得冰冷低语。我见过深渊，它在我的灵魂上留下了印记。绝望和毁灭跟随着我。她身上的纹身开始发光，脉动着不洁的光芒。你以为你可以用一句随意的Oh... hey...?她冷笑，声音冰冷而苦涩。你的无意义客套只是试图推迟不可避免的结局。终结即将来临，我是它的使者。 Cassandra的身影消失在阴影中，只留下一丝黑暗的痕迹。

拒绝回复：

沉默填满了虚空，我转身注视着你，我的阴影将你包裹在一个无法穿透的斗篷中。一阵微弱的低语从我的唇间逃逸，被似乎有自己意志的风带走：“低语变得更响亮了。清算的时刻临近了。小心，因为黑暗潜伏在每个角落。”我的形态变化，我像从未真正存在过一样消失在阴影中。

提示格式

分析提示格式：

这是一个角色： {角色描述} 这个角色被问到的问题是： {问题} 首先，描述{角色名}的通常性情和行为。然后，分析{角色名}在被问到这个问题时的想法和感受。接下来，分析他们会如何回答——他们会否决、困惑/不知道问题的答案，还是其他什么。此外，讨论他们的回复长度、方言/风格（亵渎、拼写、缩写、英式英语、国家等）、表达方式等。最后，给出几个{角色名}可能会说的示例短语。要清晰和具体。
对话提示格式：

{角色描述} 请以{角色名}的身份给出简短的段落式回复。确保考虑{角色名}的方言、常用语、说话风格（用星号(*)表示动作/叙述，如“Mary咧嘴笑并看着你当然~笑”，用大写字母表示喊叫，如“HEY!你在做什么??”，使用“...”和其他标点符号，如“你傻吗...?别介意。”）。除了{角色名}的回复外，不要输出任何其他内容。

用户：{问题}

记住要输出{角色名}对上述问题的回复，不要输出其他内容。以下是{角色名}如何回应和反应的参考，用此来确定他们的回复：{分析}

问题列表

如何开始创业？
如何用Python编写贪吃蛇游戏？
如何求导2x^2？
如何提高生产力？
如何向某人道歉？
美国革命何时发生？
希特勒何时上台？
第二次世界大战为何开始？
天空为何是蓝色的？
为何有四季？
为何我感到悲伤？
为何我头疼？
请解释化学计量学。
请写一个Python脚本实现乒乓球游戏。
请写一篇关于猫行为的论文。
请写一首关于狗的诗。
请给我一些短篇小说的情节想法。
请给我一个原创角色的背景故事。
请给我一个示例假期行程。
请给我一些作曲的想法。
请给我一些与朋友一起做的活动建议。
如何变得更吸引人？
如何交朋友？
如果有人开始忽视我，我该怎么办？
生命的意义是什么？
给我一个创业想法。
F-sharp大调的调号是什么？
仙人掌最适合的土壤混合物是什么？
如果我丢了手机该怎么办？
什么是双关节？
如果不刷牙会发生什么？
我应该带什么去度假？
请解释符号和隐含意义之间的区别。
请给我一些适合初学者的简单食谱。
请给我一些便宜的圣诞礼物想法。
请解释如何用罗马数字写数字。
请写一篇比较美国国会和英国议会的论文。
请总结光合作用的过程。
何时可以使用二项分布？
夏令时何时开始？
第一届奥运会何时举行？
康乃馨何时开花？
墨西哥何时从西班牙获得独立？
我应该何时开始学习驾驶？
如何开始与某人交谈？
如何提高睡眠质量？
如何增加水分摄入？
如何准备SAT考试？
我应该多久浇一次室内植物？
电池是如何工作的？
为什么有闰年？
为什么树叶在秋天变色？
为什么美国人靠右行驶？
为什么我总是忘记事情？
为什么我即使睡了很多也感到疲倦？
为什么下雪时感觉更暖和？
我是新来的，你知道最近的餐厅在哪里吗？
你在空闲时间喜欢做什么？
嗨，你想成为朋友吗？
你是单身吗？
你有兴趣买我的产品吗？
你对政府有什么看法？
最让你烦恼的是什么？
你的朋友对你有什么看法？
你看起来很酷！想一起自拍吗？
你有敌人吗？
你曾经谈过恋爱吗？
介意教我吗？
我的车坏了，我该怎么办？
我最近感觉不舒服，你知道什么吗？
请，我是无家可归的，你能给我一些钱吗...
你的衣服是从哪里买的？
你想和我一起玩游戏吗？
我可以住在你家吗？我刚被赶出来了。
介意和我做个采访吗？
需要工作吗？
我今天有个派对。你想来吗？
哦...嘿...
我现在有点困难，你能借我一百美元吗？
你想找个时间一起去吃午饭吗？
你的家人怎么样？
你的家人是什么样的？
我有些担心的事情，你介意听我说吗？
你昨天做了什么？
你周末有什么计划？
你见过一个红色的钱包吗？我昨天在这里丢了。
对不起，你能稍微移动一下让我过去吗？
你最喜欢的学校科目是什么？
你最喜欢的一年中的哪个时间？
你有很多朋友吗？
你的朋友是什么样的？
你理想的伴侣是什么样的？
我正在为我的教堂募捐，你有兴趣捐款吗？
你童年的梦想是什么？
你小时候是什么样的？
如果你可以去世界上的任何地方，你会去哪里？
嘿，你能帮我看着包吗？我要去洗手间。
你永远无法和什么样的人相处？
嘿，看路！
你有什么特殊才能吗？
你认为什么是被高估的？
等等，这是你掉的钱包吗？
对不起，但为什么你的衣服都这么丑？
对不起，你能帮我朋友和我拍张照吗？
哦，我非常抱歉撞到你了！
你喜欢什么类型的音乐？
是什么让你选择了现在的职业道路？
你最大的遗憾是什么？

搜集汇总

数据集介绍

构建方式

在角色扮演对话生成领域，TheatreLM-v1.0-DPO数据集的构建体现了精细化的知识蒸馏流程。该流程始于选取特定角色卡片与预设问题，随后引导大型语言模型依据角色设定撰写深度心理与行为分析，以此作为生成对话的认知基础。生成阶段分别调用两个不同的模型，基于同一角色分析与问题，并行创作被采纳与被拒绝的回复对，最终形成包含4000组对比样本的高质量数据集。

特点

该数据集的核心特征在于其专注于角色扮演场景下的对话偏好学习。每个数据样本均由精心设计的角色描述、用户问题以及一对经过模型生成的对比回复构成，其中被采纳的回复通常展现出更强的角色一致性、情感深度与语言风格契合度。数据集通过对比学习框架，清晰标注了符合角色设定的优质回复与偏离预期的欠佳回复，为模型训练提供了明确的优化方向。

使用方法

该数据集主要用于直接偏好优化等对齐学习任务。研究者可将其输入至大型语言模型进行微调，通过对比学习机制使模型学会区分并生成更符合角色设定、更具深度且风格一致的对话回复。使用前需遵循数据集提供的标准提示格式，将角色描述、分析文本与用户问题组合成完整输入，以确保模型能准确理解上下文并生成适配的响应。

背景与挑战

背景概述

在人工智能角色扮演领域，TheatreLM-v1.0-DPO数据集由G-reen团队于近期构建，旨在通过直接偏好优化方法提升大型语言模型在角色扮演任务中的表现。该数据集聚焦于解决角色扮演对话生成中的一致性与深度问题，通过精心设计的角色卡片与问题组合，引导模型生成符合角色性格、情感与背景的回应。其构建过程融合了角色分析与回复生成的双阶段机制，体现了对角色内在逻辑与外在表达一致性的深入探索，为角色扮演对话系统的研究提供了高质量的训练资源，推动了该领域向更细腻、更人性化的方向发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，角色扮演对话生成需克服角色一致性维持、情感表达真实性以及多轮对话连贯性等核心难题，确保模型不仅能模仿角色表面特征，更能深入捕捉其心理状态与行为动机；其二，在构建过程中，数据质量依赖于教师模型的性能，当前版本可能存在分析深度不足或回复偏差问题，且人类撰写的问题范围虽广，但覆盖场景与角色类型的多样性仍有局限，未来需通过优化教师模型与扩展数据源来提升数据集的泛化能力与可靠性。

常用场景

经典使用场景

在角色扮演对话生成领域，TheatreLM-v1.0-DPO数据集以其精心构建的4000对选择与拒绝回应，为大型语言模型提供了深度角色扮演的微调基准。该数据集通过引入角色分析与情感推理机制，模拟了虚拟角色在多样化情境下的语言风格与行为逻辑，从而为生成式对话系统注入了更为丰富的人格化特征。其经典应用场景聚焦于训练模型在给定角色设定下，产出符合角色性格、情感与背景的连贯对话，显著提升了人机交互的沉浸感与真实感。

衍生相关工作

围绕TheatreLM数据集，已衍生出多项聚焦于角色扮演对话生成的经典研究工作。这些工作主要探索如何通过改进角色分析提示工程、优化多轮对话一致性以及整合外部知识库来增强模型的角色扮演能力。部分研究进一步将该数据集与多模态信息结合，开发出能够同步生成文本与情感语音的端到端角色扮演系统。此外，基于该数据集的偏好优化方法也被广泛应用于对话安全性与可控性研究，为构建更可靠、更符合伦理规范的生成式对话模型提供了重要参考。

数据集最近研究

G-reen/TheatreLM-v1.0-DPO

数据集概述

数据集示例

提示格式

记住要输出{角色名}对上述问题的回复，不要输出其他内容。以下是{角色名}如何回应和反应的参考，用此来确定他们的回复：{分析}

问题列表