five

IconicAI/DDD

收藏
Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/IconicAI/DDD
下载链接
链接失效反馈
官方服务:
资源简介:
Deep Dungeons and Dragons数据集包含长格式的多轮和多角色协作的RPG故事,每个故事都有相关的角色卡片。数据集由1544个故事中的56,000个回合组成,涉及9771个角色,总计50M Llama tokens。每个回合包括从定义角色的角度出发的故事延续,包含对话和散文。数据集是2018年由Annie Louis和Charles Sutton发布的Deep Dungeons and Dragons的清理和重新格式化版本,原始数据来自roleplayerguild.com的公共游戏记录。数据集已移除图像和链接,并匿名化用户名。

Deep Dungeons and Dragons数据集包含长格式的多轮和多角色协作的RPG故事,每个故事都有相关的角色卡片。数据集由1544个故事中的56,000个回合组成,涉及9771个角色,总计50M Llama tokens。每个回合包括从定义角色的角度出发的故事延续,包含对话和散文。数据集是2018年由Annie Louis和Charles Sutton发布的Deep Dungeons and Dragons的清理和重新格式化版本,原始数据来自roleplayerguild.com的公共游戏记录。数据集已移除图像和链接,并匿名化用户名。
提供机构:
IconicAI
原始信息汇总

Deep Dungeons and Dragons 数据集概述

数据集简介

Deep Dungeons and Dragons 数据集包含长篇多轮和多角色协作的角色扮演游戏(RPG)故事,以及相关的角色卡片。该数据集包含56,000个回合,分布在1544个故事中,涉及9771个角色,总计约5000万Llama tokens。每个回合包含从特定角色视角出发的多段落故事延续,包括对话和散文。

数据集来源

该数据集是2018年由Annie Louis和Charles Sutton发布的Deep Dungeons and Dragons的清理和重新格式化版本。原始数据来自roleplayerguild.com的公开游戏记录。数据集中已移除图像和链接(及其引用),并匿名化了用户名。

数据集结构

  • thread_id: 特定RPG游戏的数字ID。
  • message_id: 线程内的回合。
  • author_id: 消息作者的ID。
  • author_num_posts: 该作者的总发帖数,可用作质量信号。
  • message: 包含特定角色扮演的RPG故事延续的帖子,通常包含多段落描述,包括散文和对话。
  • character: 该帖子扮演的角色卡片,与(thread_id, author_id)一对一映射。

示例帖子

Trevor的突然宣布确实吓到了Mildred。平时类型的她跳错了方向,打翻了她的杯子,把Pechai茶洒满了她的桌子。Mildred震惊了一会儿。然后她发出一声尖叫,迅速把文件推到一边,速度之快堪比Jolteon,除了几个角落外都得救了。然后,秘书用她能找到的第一个半吸水材料...她自己的尾巴...吸干了一些水。 危机解除后,Mildred突然想起了它的原因,脸红了。她偷偷地看着潜在的招募者,一个是Noibat,另一个...是Togepi?是的,这与她读到的描述相符,尽管她以前从未见过实物。现在他们俩都看到了她像个白痴一样惊慌失措。Mildred深吸了一口气。是时候专业一点了。在慌乱的宝可梦试图逻辑思考时,这意味着要表现得好像什么都没发生。Mildred清了清嗓子,露出了礼貌的微笑。 "欢迎来到Medburn探险公会。" Mildred开始她的标准介绍,同时慢慢地把她沾满茶的尾巴移到背后。"感谢您对我们保护地区人民、地点和文化的兴趣。我叫Mildred,今天我将为您注册并开始您的入职培训。但在我们开始之前,我只需要您仔细阅读并填写几份表格。" 说完,Mildred迅速翻阅着稍微凌乱的彩色纸堆。她一边翻,一边快速地凭记忆总结每份表格的内容。 "...您收入的百分之...将归公会所有..." "...将被安置在单独的..." "...每周五只能在淋浴时唱歌..." "...对于由...造成的任何伤害或死亡,我们不承担责任..." 最后,Mildred拿起一叠看起来像是独角兽管理的官僚机构的表格,递给了Togepi,因为她认为Noibat可能需要空出双臂飞行。 "再次,我请您在签署任何文件之前仔细阅读这些表格," Smeargle总结道,推了推鼻梁上的眼镜。"如果有任何问题,请随时问我。"她真的希望他们不会有任何问题。她今天已经经历了足够多的尴尬社交场合。

示例角色卡片

姓名:Edward "Edge" Van Helsing 外貌:

性别:男 年龄:15 类型:后代 学校:怪物猎人 魔法/武器:慈悲和典范

传记:Helsing家族是一个充满不幸和麻烦的家族。Edward的母亲在生下他时去世了,他的父亲是一名经验丰富的猎人。他们住在伦敦,直到Edward九岁那年,灾难再次降临到他的家庭。一群吸血鬼聚集并袭击了Helsing庄园,年轻的Edward醒来时听到庄园仆人的尖叫声,他们正在被吸血鬼享用。Edge的父亲被包围,一边开枪打倒每一个接近的吸血鬼。Edge自己从庄园的大厅里收集了一把银剑,然后走到窗前寻找他的父亲,这时房子着火了。 Edge及时赶到,看到他的父亲被吸干了生命,被丢弃了。Edge从未有过暴力的冲动,直到那天。事实上,没有一个Helsing生来就是猎人,几乎所有的Helsing都遭受了苦难,他们心中的复仇之火,这才是让Helsing战斗的原因。当这个几乎十岁的孩子,手里只有一把剑,看到他父亲以及朋友和看护人的死亡时,他崩溃了。他从窗户跳出去,重重地落在吸血鬼身上,一击又一击。当他的手臂无力时,他放下了剑。 幸运的是,Edge的一些仆人幸存了下来,现在作为Helsing家族分支的继承人,Edge花了几天时间训练。他还开始学习音乐,特别是小提琴。那是他母亲的,现在父母都去世了,他尽最大努力记住并了解他们。经过多年的训练,他终于被学院录取,选择了怪物猎人训练,因为他觉得吸血鬼猎人会提供很少的挑战。虽然有时强硬和自大,但Edge凭借致命的瞄准和快速移动来支持这一点,他的剑和刀技能令人印象深刻,但他对魔法或恶魔知之甚少。

搜集汇总
数据集介绍
main_image_url
构建方式
在角色扮演游戏叙事生成领域,数据集的构建往往依赖于真实玩家互动文本的收集与处理。Deep Dungeons and Dragons数据集源自2018年由Annie Louis与Charles Sutton发布的公开资源,其原始数据采集自roleplayerguild.com网站上的公共游戏会话记录。构建过程中,研究团队对原始转录文本进行了系统化清洗与重构,移除了图像、超链接及其相关引用,转化为纯文本格式,并对用户名进行了匿名化处理,最终形成了包含1544个故事线程、9771个角色卡片及5.6万轮次对话的结构化语料库,总计约5000万Llama标记。
使用方法
在自然语言处理任务中,该数据集主要适用于文本生成与会话建模研究。使用者可通过解析thread_id与message_id字段追踪故事线程的时序发展,结合character字段深入分析特定角色的叙事一致性。数据以parquet格式存储,支持高效加载与处理。典型应用包括训练多角色对话生成模型、研究叙事连贯性机制,或作为评估长文本生成质量的基准数据。引用时需遵循原始文献的学术规范,确保数据来源的可靠性与研究的可复现性。
背景与挑战
背景概述
在自然语言处理领域,长文本生成与多角色对话建模一直是极具挑战性的研究方向。Deep Dungeons and Dragons(DDD)数据集于2018年由爱丁堡大学的Annie Louis和Charles Sutton团队构建,旨在捕捉角色扮演游戏中复杂的角色-行为交互模式。该数据集源自公开在线论坛的真实游戏记录,涵盖了超过1.5万条多轮次、多角色的协作叙事文本,为研究叙事连贯性、角色一致性及对话状态跟踪提供了珍贵资源。其创新性在于将游戏场景中的动态交互转化为结构化语料,推动了叙事生成与角色认知建模领域的发展,成为后续研究如故事生成和对话系统的重要基准。
当前挑战
DDD数据集所针对的核心挑战在于如何建模长程、多角色的叙事交互,这要求系统不仅能理解动态对话语境,还需维持角色性格与行为的一致性。具体而言,数据构建过程中面临多重困难:原始游戏记录包含大量非文本元素(如图像、超链接),需进行精细化清洗以提取纯文本内容;同时,角色卡片与叙事帖子的对齐需要精确映射,以确保角色属性的准确关联。此外,匿名化处理虽保护了用户隐私,但也部分削弱了作者风格的分析维度。这些挑战共同凸显了在复杂叙事环境中构建高质量语料库的技术难度。
常用场景
经典使用场景
在自然语言处理领域,Deep Dungeons and Dragons数据集以其丰富的长形式多轮、多角色协作角色扮演故事,为对话系统和叙事生成研究提供了独特资源。该数据集通过包含大量带有角色卡片的叙事文本,能够有效支持角色一致性建模和上下文感知的文本生成任务。研究者常利用其多轮对话结构和角色属性信息,训练模型学习复杂的人物交互与情节发展模式,从而推动开放域对话和故事生成技术的进步。
解决学术问题
该数据集主要解决了角色扮演叙事中角色行为一致性建模和长文本生成中的上下文维护问题。通过提供带有明确角色属性的多轮叙事,它帮助研究者探索如何使生成模型在长篇幅文本中保持角色性格、背景和行为的连贯性。这为对话系统、故事生成以及人机交互领域提供了重要的实验基础,促进了基于角色的自然语言生成技术的发展,并丰富了计算叙事学的研究范式。
实际应用
在实际应用中,Deep Dungeons and Dragons数据集被广泛用于训练和评估智能叙事助手、游戏对话引擎以及个性化内容生成系统。例如,在游戏开发中,它可以赋能非玩家角色生成更自然、更具角色特色的对话;在教育领域,能够支持互动式故事创作工具的研发。此外,该数据集也为虚拟角色和社交机器人的对话能力提升提供了数据支撑,增强了人机交互的沉浸感和适应性。
数据集最近研究
最新研究方向
在角色扮演游戏(RPG)叙事生成领域,Deep Dungeons and Dragons(DDD)数据集凭借其丰富的多轮、多角色协作故事结构,为角色一致性建模与长文本生成研究提供了关键支撑。当前前沿探索聚焦于利用该数据集训练大型语言模型,以模拟复杂角色互动与叙事连贯性,尤其在开放域对话系统和交互式故事创作中,研究者致力于提升模型对角色卡片信息的理解与动态适应能力。这一方向与人工智能在创意写作和沉浸式娱乐应用的热潮紧密相连,推动了叙事智能技术的发展,为生成更具人性化与情境感知的对话内容奠定了数据基础,具有显著的学术与产业价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作