five

lara-martin/FIREBALL|龙与地下城数据集|自然语言生成数据集

收藏
hugging_face2024-05-09 更新2024-05-25 收录
龙与地下城
自然语言生成
下载链接:
https://hf-mirror.com/datasets/lara-martin/FIREBALL
下载链接
链接失效反馈
资源简介:
FIREBALL是一个大型众包数据集,记录了在Discord平台上使用自然语言(主要是英语)进行《龙与地下城》(D&D)游戏的玩家数据。数据集通过Avrae机器人记录了游戏状态信息,包含近25,000个独特的游戏会话和153,829个回合,详细记录了玩家的D&D游戏回合信息。该数据集的结构化信息有助于改进自然语言生成(NLG)的质量,并展示了大型语言模型(LLMs)在生成可执行的Avrae命令方面的潜力。
提供机构:
lara-martin
原始信息汇总

数据集卡片:FIREBALL

数据描述

FIREBALL: 一个包含结构化游戏状态信息的Dungeons and Dragons实际游戏数据集

FIREBALL是一个大型的众包数据集,包含人们在Discord上玩Dungeons and Dragons(D&D或DnD)的游戏记录。除了使用自然语言(主要是英语)进行游戏外,玩家还使用了一个名为Avrae的机器人。Avrae允许玩家通过编写命令来跟踪游戏状态,这些命令也被我们收集。该数据集包含近25,000个独特的游戏会话,153,829个回合,以及关于人们D&D游戏回合的详细信息。

DnD回合模式

数据集中的每一行包含每个对话回合的过滤模式。模式包括以下键: json { "speaker_id": 发送命令的用户匿名用户ID。 "before_utterances": 对应三元组中“先前”话语的字符串列表。 "combat_state_before": 命令运行前战斗实例中每个角色的标准化角色状态列表。 "current_actor": (可为空)当前回合角色的标准化角色状态。 "commands_norm": 对应三元组中“命令”部分的字符串列表。 "automation_results": 代表在Avrae引擎中运行动作结果的机械生成的字符串列表。 "caster_after": 运行动作的角色标准化角色状态,可能与当前角色不同。 "targets_after": 被动作目标的角色标准化角色状态列表。 "combat_state_after": 命令运行后战斗实例中每个角色的标准化角色状态列表。 "after_utterances": 对应三元组中“后续”话语的字符串列表。 "utterance_history": 命令运行前的最后5条聊天记录。 "before_idxs": 包含“先前”话语的“消息”事件在原始事件文件中的索引列表。 "before_state_idx": 用于导出“combat_state_before”的“combat_state_update”事件在原始事件文件中的索引。 "command_idxs": 对应“commands_norm”键的“命令”事件的索引。 "after_state_idx": 对应“combat_state_after”键的“combat_state_update”事件的索引。 "after_idxs": 对应“after_utterances”键的“消息”事件的索引。 "embed_idxs": (可为空,与“automation_results”长度相同)对应“automation_results”键中每个结果的富文本结果在Discord上显示给玩家的“消息”事件的索引。 }

所有用户ID和用户名都已通过哈希函数随机化,以保持匿名性。

标准化角色状态

标准化角色状态仅是可用角色信息的一个子集,对应于我们为FIREBALL论文进行的工程实验所使用的信息。有关可用角色信息的完整列表,请参见FIREBALL论文中的表6。 json { "name": 角色的名称。 "hp": 数值和叙述性的生命值(例如“<12/34; 血腥>”)。 "class": 角色的职业和等级,如果适用(例如“战士3”)。 "race": 角色的种族,如果适用(例如“山地矮人”,“成年红龙”)。 "attacks": 角色可用的攻击名称列表。 "spells": 角色可用的法术列表。 "actions": 角色可用的特殊能力列表。 "effects": 角色上的任何临时效果列表(例如“昏迷”)。 "description": 角色的叙述性描述(如果可用)。 "controller_id": 该角色控制者的匿名用户ID。 }

combat_state_before, current_actor, caster_after, targets_after, 和 combat_state_after 使用上述状态格式。

附加信息

引用

bibtex @inproceedings{Zhu2023FIREBALL, title={{FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information}}, author={Zhu, Andrew and Aggarwal, Karmanya and Feng, Alexander and Martin, Lara J. and Callison-Burch, Chris}, year={2023}, booktitle={Annual Meeting of the Association for Computational Linguistics (ACL)}, month={7}, url={https://aclanthology.org/2023.acl-long.229/}, address={Toronto, Canada}, pages={4171--4193}, publisher={ACL}, doi={10.18653/v1/2023.acl-long.229} }

许可

Creative Commons Attribution 4.0 International License. https://creativecommons.org/licenses/by/4.0/

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录