lara-martin/FIREBALL|龙与地下城数据集|自然语言生成数据集
收藏数据集卡片:FIREBALL
数据描述
FIREBALL: 一个包含结构化游戏状态信息的Dungeons and Dragons实际游戏数据集
FIREBALL是一个大型的众包数据集,包含人们在Discord上玩Dungeons and Dragons(D&D或DnD)的游戏记录。除了使用自然语言(主要是英语)进行游戏外,玩家还使用了一个名为Avrae的机器人。Avrae允许玩家通过编写命令来跟踪游戏状态,这些命令也被我们收集。该数据集包含近25,000个独特的游戏会话,153,829个回合,以及关于人们D&D游戏回合的详细信息。
DnD回合模式
数据集中的每一行包含每个对话回合的过滤模式。模式包括以下键: json { "speaker_id": 发送命令的用户匿名用户ID。 "before_utterances": 对应三元组中“先前”话语的字符串列表。 "combat_state_before": 命令运行前战斗实例中每个角色的标准化角色状态列表。 "current_actor": (可为空)当前回合角色的标准化角色状态。 "commands_norm": 对应三元组中“命令”部分的字符串列表。 "automation_results": 代表在Avrae引擎中运行动作结果的机械生成的字符串列表。 "caster_after": 运行动作的角色标准化角色状态,可能与当前角色不同。 "targets_after": 被动作目标的角色标准化角色状态列表。 "combat_state_after": 命令运行后战斗实例中每个角色的标准化角色状态列表。 "after_utterances": 对应三元组中“后续”话语的字符串列表。 "utterance_history": 命令运行前的最后5条聊天记录。 "before_idxs": 包含“先前”话语的“消息”事件在原始事件文件中的索引列表。 "before_state_idx": 用于导出“combat_state_before”的“combat_state_update”事件在原始事件文件中的索引。 "command_idxs": 对应“commands_norm”键的“命令”事件的索引。 "after_state_idx": 对应“combat_state_after”键的“combat_state_update”事件的索引。 "after_idxs": 对应“after_utterances”键的“消息”事件的索引。 "embed_idxs": (可为空,与“automation_results”长度相同)对应“automation_results”键中每个结果的富文本结果在Discord上显示给玩家的“消息”事件的索引。 }
所有用户ID和用户名都已通过哈希函数随机化,以保持匿名性。
标准化角色状态
标准化角色状态仅是可用角色信息的一个子集,对应于我们为FIREBALL论文进行的工程实验所使用的信息。有关可用角色信息的完整列表,请参见FIREBALL论文中的表6。 json { "name": 角色的名称。 "hp": 数值和叙述性的生命值(例如“<12/34; 血腥>”)。 "class": 角色的职业和等级,如果适用(例如“战士3”)。 "race": 角色的种族,如果适用(例如“山地矮人”,“成年红龙”)。 "attacks": 角色可用的攻击名称列表。 "spells": 角色可用的法术列表。 "actions": 角色可用的特殊能力列表。 "effects": 角色上的任何临时效果列表(例如“昏迷”)。 "description": 角色的叙述性描述(如果可用)。 "controller_id": 该角色控制者的匿名用户ID。 }
combat_state_before
, current_actor
, caster_after
, targets_after
, 和 combat_state_after
使用上述状态格式。
附加信息
引用
bibtex @inproceedings{Zhu2023FIREBALL, title={{FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information}}, author={Zhu, Andrew and Aggarwal, Karmanya and Feng, Alexander and Martin, Lara J. and Callison-Burch, Chris}, year={2023}, booktitle={Annual Meeting of the Association for Computational Linguistics (ACL)}, month={7}, url={https://aclanthology.org/2023.acl-long.229/}, address={Toronto, Canada}, pages={4171--4193}, publisher={ACL}, doi={10.18653/v1/2023.acl-long.229} }
许可
Creative Commons Attribution 4.0 International License. https://creativecommons.org/licenses/by/4.0/
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录