lara-martin/FIREBALL

Name: lara-martin/FIREBALL
Creator: lara-martin
Published: 2024-05-09 20:35:02
License: 暂无描述

Hugging Face2024-05-09 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/lara-martin/FIREBALL

下载链接

链接失效反馈

官方服务：

资源简介：

FIREBALL是一个大型众包数据集，记录了在Discord平台上使用自然语言（主要是英语）进行《龙与地下城》（D&D）游戏的玩家数据。数据集通过Avrae机器人记录了游戏状态信息，包含近25,000个独特的游戏会话和153,829个回合，详细记录了玩家的D&D游戏回合信息。该数据集的结构化信息有助于改进自然语言生成（NLG）的质量，并展示了大型语言模型（LLMs）在生成可执行的Avrae命令方面的潜力。

FIREBALL is a large crowdsourced dataset that records player data for Dungeons & Dragons (D&D) games conducted via natural language (primarily English) on the Discord platform. The dataset captures game state information via the Avrae bot, containing nearly 25,000 unique game sessions and 153,829 turns, with detailed logs of players’ in-game D&D turn activities. The structured information of this dataset can help improve the quality of natural language generation (NLG), and demonstrates the potential of large language models (LLMs) in generating executable Avrae commands.

提供机构：

lara-martin

原始信息汇总

数据集卡片：FIREBALL

数据描述

FIREBALL: 一个包含结构化游戏状态信息的Dungeons and Dragons实际游戏数据集

FIREBALL是一个大型的众包数据集，包含人们在Discord上玩Dungeons and Dragons（D&D或DnD）的游戏记录。除了使用自然语言（主要是英语）进行游戏外，玩家还使用了一个名为Avrae的机器人。Avrae允许玩家通过编写命令来跟踪游戏状态，这些命令也被我们收集。该数据集包含近25,000个独特的游戏会话，153,829个回合，以及关于人们D&D游戏回合的详细信息。

DnD回合模式

数据集中的每一行包含每个对话回合的过滤模式。模式包括以下键： json { "speaker_id": 发送命令的用户匿名用户ID。 "before_utterances": 对应三元组中“先前”话语的字符串列表。 "combat_state_before": 命令运行前战斗实例中每个角色的标准化角色状态列表。 "current_actor": （可为空）当前回合角色的标准化角色状态。 "commands_norm": 对应三元组中“命令”部分的字符串列表。 "automation_results": 代表在Avrae引擎中运行动作结果的机械生成的字符串列表。 "caster_after": 运行动作的角色标准化角色状态，可能与当前角色不同。 "targets_after": 被动作目标的角色标准化角色状态列表。 "combat_state_after": 命令运行后战斗实例中每个角色的标准化角色状态列表。 "after_utterances": 对应三元组中“后续”话语的字符串列表。 "utterance_history": 命令运行前的最后5条聊天记录。 "before_idxs": 包含“先前”话语的“消息”事件在原始事件文件中的索引列表。 "before_state_idx": 用于导出“combat_state_before”的“combat_state_update”事件在原始事件文件中的索引。 "command_idxs": 对应“commands_norm”键的“命令”事件的索引。 "after_state_idx": 对应“combat_state_after”键的“combat_state_update”事件的索引。 "after_idxs": 对应“after_utterances”键的“消息”事件的索引。 "embed_idxs": （可为空，与“automation_results”长度相同）对应“automation_results”键中每个结果的富文本结果在Discord上显示给玩家的“消息”事件的索引。 }

所有用户ID和用户名都已通过哈希函数随机化，以保持匿名性。

标准化角色状态

标准化角色状态仅是可用角色信息的一个子集，对应于我们为FIREBALL论文进行的工程实验所使用的信息。有关可用角色信息的完整列表，请参见FIREBALL论文中的表6。 json { "name": 角色的名称。 "hp": 数值和叙述性的生命值（例如“<12/34; 血腥>”）。 "class": 角色的职业和等级，如果适用（例如“战士3”）。 "race": 角色的种族，如果适用（例如“山地矮人”，“成年红龙”）。 "attacks": 角色可用的攻击名称列表。 "spells": 角色可用的法术列表。 "actions": 角色可用的特殊能力列表。 "effects": 角色上的任何临时效果列表（例如“昏迷”）。 "description": 角色的叙述性描述（如果可用）。 "controller_id": 该角色控制者的匿名用户ID。 }

combat_state_before, current_actor, caster_after, targets_after, 和 combat_state_after 使用上述状态格式。

附加信息

引用

bibtex @inproceedings{Zhu2023FIREBALL, title={{FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information}}, author={Zhu, Andrew and Aggarwal, Karmanya and Feng, Alexander and Martin, Lara J. and Callison-Burch, Chris}, year={2023}, booktitle={Annual Meeting of the Association for Computational Linguistics (ACL)}, month={7}, url={https://aclanthology.org/2023.acl-long.229/}, address={Toronto, Canada}, pages={4171--4193}, publisher={ACL}, doi={10.18653/v1/2023.acl-long.229} }

许可

Creative Commons Attribution 4.0 International License. https://creativecommons.org/licenses/by/4.0/

搜集汇总

数据集介绍

构建方式

在角色扮演游戏自然语言处理研究领域，FIREBALL数据集通过创新的众包方式构建而成。研究团队收集了玩家在Discord平台上进行《龙与地下城》实际游戏会话的原始数据，并借助专用的Avrae机器人捕获了游戏过程中的自然语言对话与结构化命令。数据集涵盖了近2.5万个独立游戏会话和超过15万个游戏回合，通过自动化流程提取了每个回合前后的游戏状态、玩家指令及其执行结果，最终形成了一套包含丰富上下文与精确状态标注的标准化JSON格式记录。

特点

该数据集的核心特征在于其深度融合了自然语言交互与精确的游戏状态信息。每条数据不仅包含玩家在回合前后的对话历史，还详细记录了通过Avrae机器人执行的标准化命令、命令的自动化执行结果，以及战斗前后所有参与者的归一化状态描述。这种结构提供了真实的黄金标准游戏状态，而非启发式生成的信息，为研究语言模型如何利用结构化状态来提升叙事生成和命令执行的准确性提供了独特资源。

使用方法

研究人员可利用此数据集推动多个方向的研究，特别是在结合游戏状态的自然语言生成领域。数据集以JSON行格式提供，需使用`jsonlines`库进行加载。每条记录中的结构化键值，如`combat_state_before`、`commands_norm`和`combat_state_after`，可直接用于训练或评估模型，以生成符合游戏上下文的对话或可执行的Avrae命令。此外，其丰富的状态标注支持探索隐藏状态信息对生成质量的影响，为游戏人工智能和交互式叙事系统的发展提供实证基础。

背景与挑战

背景概述

在自然语言处理与游戏人工智能交叉领域，龙与地下城（D&D）作为一款复杂的桌面角色扮演游戏，其丰富的叙事交互与隐藏状态信息为研究带来了独特机遇。FIREBALL数据集由Andrew Zhu、Karmanya Aggarwal、Alexander Feng、Lara J. Martin和Chris Callison-Burch等研究人员于2023年构建，收录了近2.5万场真实游戏会话，旨在探索结构化游戏状态信息如何提升自然语言生成质量。该数据集通过整合Discord平台上的实际游戏对话与Avrae机器人命令，为研究隐藏状态建模、多轮对话生成及命令执行提供了宝贵资源，显著推动了游戏叙事生成与交互式人工智能的发展。

当前挑战

FIREBALL数据集致力于解决游戏叙事生成中隐藏状态建模的挑战，即如何利用精确的游戏状态信息（如角色生命值、技能效果）来生成连贯且符合游戏逻辑的自然语言对话。在构建过程中，研究人员面临数据采集与标注的复杂性：需从海量Discord游戏会话中提取并规范化多模态交互数据，包括玩家自然语言对话、Avrae命令序列及动态游戏状态，同时确保用户匿名性与数据一致性。此外，将非结构化的游戏叙事转化为结构化状态表示，并保持其与生成文本的语义对齐，构成了数据集构建的核心技术难题。

常用场景

经典使用场景

在角色扮演游戏与自然语言处理的交叉领域，FIREBALL数据集为研究结构化游戏状态信息如何增强语言生成提供了经典范例。该数据集通过整合《龙与地下城》实际游戏会话中的对话历史与精确的游戏状态数据，使得研究者能够探索在复杂、动态的叙事环境中，如何利用隐藏的状态信息来生成更连贯、更符合游戏逻辑的文本。其核心应用场景在于训练和评估模型，使其不仅能理解自然语言对话的上下文，还能解析并响应由游戏机制（如角色状态、战斗效果）所定义的约束条件，从而推动叙事生成与游戏智能的深度融合。

衍生相关工作

围绕FIREBALL数据集，已衍生出多项经典研究工作。原论文率先证明了利用其结构化状态信息能显著提升语言模型的生成质量。后续研究可能在此基础上，探索更高效的状态表示学习方法、研究模型对游戏指令的理解与执行能力，或将此类方法迁移至其他需要状态管理的对话领域（如任务型对话、教学系统）。该数据集也为评估模型在长上下文、多角色交互场景下的性能设立了新基准，激励了游戏人工智能与叙事智能领域的交叉创新。

数据集最近研究