Werewolf Among Us

Name: Werewolf Among Us
Creator: 佐治亚理工学院, 上海交通大学, Meta AI, 斯坦福大学
Published: 2022-12-16 12:52:53
License: 暂无描述

arXiv2022-12-16 更新2024-06-21 收录

下载链接：

https://persuasion-deductiongame.socialai-data.org

下载链接

链接失效反馈

官方服务：

资源简介：

Werewolf Among Us是一个多模态数据集，旨在模拟社交推理游戏中的说服行为。该数据集由佐治亚理工学院、上海交通大学、Meta AI和斯坦福大学合作创建，包含199个多玩家社交推理游戏场景中的对话转录和视频记录。数据集不仅提供了游戏级别的推理游戏结果标注，还包含了26,647条说服策略级别的详细标注。创建过程中，研究者们利用了Ego4D社交数据集和YouTube视频，确保了数据的自然性和多样性。该数据集主要用于研究说服策略如何影响社交互动中的推理结果，以及如何通过对话上下文和视觉信号来预测说服策略。

Werewolf Among Us is a multimodal dataset developed to simulate persuasive behavior in social deduction games. It was collaboratively constructed by Georgia Institute of Technology, Shanghai Jiao Tong University, Meta AI, and Stanford University. The dataset includes dialogue transcripts and video recordings from 199 multiplayer social deduction game sessions. In addition to game-level annotations of deduction game outcomes, it also features detailed annotations for 26,647 persuasive strategy instances. During the dataset creation process, researchers utilized the Ego4D social dataset and YouTube videos to guarantee the naturalness and diversity of the data. This dataset is primarily used to investigate how persuasive strategies impact deduction outcomes in social interactions, as well as how to predict persuasive strategies using conversational context and visual signals.

提供机构：

佐治亚理工学院, 上海交通大学, Meta AI, 斯坦福大学

创建时间：

2022-12-16

搜集汇总

数据集介绍

构建方式

在社交推理游戏背景下，说服行为建模是对话智能体的关键构建模块。现有研究局限于文本语料分析，而视觉信号在理解人类说服行为中同样扮演重要角色。为此，我们从Ego4D社交数据集和YouTube视频中筛选出199场多人社交推理游戏录像，涵盖《一夜终极狼人》与《阿瓦隆》两种游戏。每场游戏均标注了起始与结束时间、玩家角色变化及投票结果，并利用自动转录服务生成对话文本，再由人工校对确保对齐。在此基础上，三位标注者经过多轮培训，依据六类说服策略（身份声明、指控、质询、行动呼吁、辩护、证据）对26,647个话语进行细粒度标注，最终达到较高的标注者间信度。

特点

该数据集首次将多模态信息引入说服行为建模，融合了文本转录与视频片段，提供了丰富的非言语线索（如手势、目光）。语料来自自然社交环境中的多人实时对话，区别于以往的单人或在线文本场景，更贴近真实互动。话语级别标注覆盖六类说服策略，同时包含游戏级别的角色与投票结果，支持从微观策略到宏观推理的多层次分析。数据来源的多样性（实验室录制与网络视频）使得模型泛化能力得以评估，而策略分布的不均衡性（如指控、质询高频出现）也反映了真实游戏中的行为模式。

使用方法

研究者可利用该数据集训练多模态说服策略预测模型，例如将预训练语言模型（如BERT）与视觉Transformer结合，通过融合文本与视频特征提升分类性能。建议设置上下文窗口（如前5个话语）以捕捉策略的依赖关系，并采用独立二分类器处理多标签情况。对于游戏结果推理，可将策略分布与角色信息编码为向量，使用逻辑回归预测玩家投票行为。数据集还支持跨领域泛化实验，例如在YouTube数据上预训练后微调至Ego4D场景，或从狼人游戏迁移至阿瓦隆游戏，以检验模型的鲁棒性。

背景与挑战

背景概述

在社交互动中，说服行为是人类沟通的核心要素，能够影响甚至重塑他人的信念状态。然而，现有研究多局限于文本语料的分析，忽视了视觉信号在理解说服策略中的关键作用。2022年，来自佐治亚理工学院、上海交通大学、Meta AI、明尼苏达大学及斯坦福大学的研究团队联合创建了“Werewolf Among Us”数据集，这是首个用于建模说服行为的多模态基准数据集。该数据集包含199场多人社交推理游戏的对话转录与视频记录，以及26,647条话语级别的说服策略标注和游戏结果标注。通过整合对话上下文与视觉信号，该数据集显著提升了说服策略预测的性能，为自然主义群组互动中的说服行为研究开辟了新路径，推动了人机交互与协作决策领域的发展。

当前挑战

该数据集面临多重挑战。首先，在领域问题层面，现有说服建模研究主要基于在线论坛或一对一模拟对话，缺乏对自然主义群组讨论中实时、密集对话的说服行为分析；同时，视觉模态（如手势、注视）在说服理解中的作用尚未被系统探索。其次，在构建过程中，数据来源多样（Ego4D与YouTube视频），导致视频模态存在域差异（如摄像机位置、视角、光照），影响模型泛化能力；此外，说服策略标注需在话语级别完成，且存在多标签情况，标注者间一致性（Krippendorff’s alpha）需达到0.6以上，训练成本高；游戏结果预测数据存在类别不平衡（仅20.4%正样本），且游戏规则差异（如Werewolf与Avalon）进一步加剧了跨域迁移的难度。

常用场景

经典使用场景

在社交推理游戏这一充满实时互动与策略博弈的领域，'Werewolf Among Us'数据集为研究多模态说服行为提供了开创性的基准。该数据集最经典的使用场景是建模群体讨论中玩家如何通过语言与非语言信号（如手势、眼神）实施说服策略，包括身份声明、指控、质问、行动呼吁、辩护和证据提供等六类策略。研究者可利用该数据集训练模型，从对话文本与对应视频片段中联合预测每句话语所采用的说服策略，从而深入理解人类在自然社交情境下的说服机制。

衍生相关工作

该数据集衍生了一系列重要的后续研究工作，推动了多模态说服建模与社交推理游戏理解的发展。基于其提供的标注数据，研究者探索了不同上下文长度对策略预测的影响，并验证了视觉特征对指控、质问等策略的预测增益。此外，相关工作利用GPT-3等大语言模型进行零样本与少样本说服策略推理，揭示了预训练模型在社交理解任务上的潜力。在游戏结局预测方面，逻辑回归模型被用于分析玩家策略分布与投票行为的关系，证实了候选人的证据提供策略对赢得信任的关键作用。

数据集最近研究