Avalon NLU Testbed and Dataset

github2023-12-19 更新2024-05-31 收录

下载链接：

https://github.com/sstepput/Avalon-NLU

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集伴随我们的EMNLP 2023 Findings论文，用于长程对话理解以识别阿瓦隆游戏中的角色，使用大型语言模型。数据集包含20场比赛，每场比赛以标准的JSON文件格式存储，并可通过TinyDB或手动JSON解析进行读取。每场比赛由六名玩家参与，扮演梅林、珀西瓦尔、摩根娜、刺客和仆人等角色。数据集提供了游戏状态、聊天记录和玩家信念等详细信息。

This dataset accompanies our EMNLP 2023 Findings paper, and is designed for long-range dialogue understanding to identify in-game roles in the game of Avalon using large language models. The dataset contains 20 games, each stored in a standard JSON file format, and can be read via TinyDB or manual JSON parsing. Each game involves six players taking on roles such as Merlin, Percival, Morgana, the Assassin, and Servants. The dataset provides detailed information including game states, chat logs, and player beliefs.

创建时间：

2023-10-20

原始信息汇总

Avalon NLU Testbed and Dataset

数据集概述

数据集名称: Avalon NLU Testbed and Dataset
论文相关: 该数据集伴随EMNLP 2023 Findings论文_"Long-Horizon Dialogue Understanding for Role Identification in the Game of Avalon with Large Language Models"_发布。
数据集内容: 包含20场游戏的对话数据，每场游戏以标准JSON文件格式存储。
游戏设置: 每场游戏有六名玩家，角色包括梅林、珀西瓦尔、摩甘娜、刺客和仆人。
提供信息:
- 游戏状态:
  - 提议的队伍
  - 之前的队伍
  - 队伍投票
  - 任务投票
  - 任务成功与失败
  - 玩家真实角色
- 游戏聊天:
  - 每个发言有说服策略标签
  - 每个谎言有相应的欺骗策略标签
- 玩家信念:
  - 玩家偶尔会表明对其他玩家角色的看法

数据集使用

数据集位置: 数据集位于_/dataset_文件夹中。
数据格式: 每场游戏以JSON文件格式存储，可通过TinyDB或手动解析JSON读取。

数据集发布历史

2023年12月: 发布初始的Avalon在线测试平台
2023年11月: 数据集和项目网站的初始发布

搜集汇总

数据集介绍

构建方式

Avalon NLU Testbed and Dataset的构建基于《阿瓦隆》游戏中的角色识别任务，旨在通过长对话理解来研究大型语言模型在复杂社交推理中的应用。数据集包含了20场游戏的详细记录，每场游戏由六名玩家参与，分别扮演梅林、珀西瓦尔、莫甘娜、刺客等角色。每场游戏的数据以标准JSON格式存储，涵盖了游戏状态、玩家对话以及玩家信念等多维度信息。这些数据通过人工标注和游戏日志自动生成相结合的方式构建，确保了数据的丰富性和准确性。

使用方法

使用Avalon NLU Testbed and Dataset时，用户可以通过TinyDB或手动解析JSON文件来读取游戏数据。数据集中的每场游戏都包含了详细的游戏状态、对话内容和玩家信念信息，用户可以根据需要提取特定字段进行分析。此外，项目网站提供了交互式演示，用户可以通过在线版本体验游戏并直观地了解数据集的结构。为了运行在线版本，用户需创建一个新的conda环境并运行`main.py`脚本，随后在浏览器中打开显示的URL即可。

背景与挑战

背景概述

Avalon NLU Testbed and Dataset是由Simon Stepputtis等研究人员在2023年创建的一个专注于长时程对话理解的数据集，旨在支持角色识别任务的研究。该数据集基于桌游《阿瓦隆》的对话场景，包含了20场游戏的详细记录，每场游戏涉及六名玩家，分别扮演梅林、珀西瓦尔、莫甘娜、刺客等角色。数据集不仅提供了游戏状态、玩家对话和信念信息，还标注了每句话的说服策略和欺骗策略。该数据集的研究成果发表于EMNLP 2023 Findings，为自然语言理解领域，尤其是长时程对话和多角色交互场景下的语言模型研究提供了重要的实验平台。

当前挑战

Avalon NLU Testbed and Dataset的构建和应用面临多重挑战。首先，长时程对话的理解要求模型能够捕捉复杂的上下文信息，这对现有语言模型的记忆和推理能力提出了较高要求。其次，角色识别任务涉及多角色交互和策略性对话，模型需要区分真实信息与欺骗性内容，这对语义理解和逻辑推理能力提出了挑战。此外，数据集的构建过程中，如何准确标注说服策略和欺骗策略，以及如何确保玩家信念信息的真实性，也是研究人员需要克服的技术难题。这些挑战不仅推动了对话系统领域的技术进步，也为未来研究提供了丰富的探索方向。

常用场景

经典使用场景

Avalon NLU Testbed and Dataset 主要用于研究长时程对话理解，特别是在角色识别任务中的应用。该数据集通过模拟《阿瓦隆》游戏中的对话和角色互动，为研究者提供了一个复杂且多层次的对话环境。通过分析游戏中的对话策略、投票行为和角色信念，研究者可以深入探讨大语言模型在复杂对话场景中的表现。

解决学术问题

该数据集解决了在长时程对话中角色识别的难题，尤其是在多角色、多策略的复杂对话环境中。通过提供详细的游戏状态、对话内容和玩家信念信息，研究者能够更好地理解大语言模型在处理复杂对话时的能力，进而推动对话系统在角色识别和策略分析方面的研究进展。

实际应用

在实际应用中，Avalon NLU Testbed and Dataset 可用于开发更智能的对话系统，特别是在需要角色识别和策略分析的场景中，如在线游戏、虚拟助手和社交机器人。通过模拟复杂的对话环境，该数据集帮助开发者训练和评估对话系统在多角色互动中的表现，从而提升系统的智能性和适应性。

数据集最近研究