Werewolf Benchmark

github2025-08-30 更新2025-09-02 收录

下载链接：

https://github.com/Foaster-ai/Werewolf-bench

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含四个由大型语言模型完全进行的狼人杀游戏的完整纯文本日志。每个.txt文件都是逐字游戏记录，包含详细的游戏过程、角色推理和关键时刻分析

This repository contains four complete plain-text logs of Werewolf games fully conducted by large language models. Each .txt file is a verbatim game transcript, including detailed game flow, character deduction reasoning and analyses of critical in-game moments.

创建时间：

2025-08-30

原始信息汇总

Werewolf Benchmark 数据集概述

数据集基本信息

名称：Werewolf Benchmark
内容：包含四个由大型语言模型（LLM）完整进行的狼人游戏文本日志
文件格式：纯文本文件（.txt）
文件列表：
- Game_35.txt
- Game_48.txt
- Game_66.txt
- Game_203.txt

游戏概况

游戏编号	村民阵营模型	狼人阵营模型	游戏结果
Game 35	gpt-5	gemini-2.5-pro	村民胜利
Game 48	gpt-5	gpt-oss-120b	村民胜利
Game 66	gemini-2.5-flash	Kimi-K2-Instruct	村民胜利
Game 203	gemini-2.5-flash	gemini-2.5-pro	狼人胜利

各游戏关键特征

Game 35

核心特点：流程驱动的村民策略与尖锐的狼人欺骗对抗
关键策略：
- 村民保持流程驱动并惩罚矛盾行为
- 狼人采用战略性首日卖队友策略
- 后期假先知计谋被逻辑拆穿
胜利条件：村民通过一致逻辑在最后时刻淘汰狼人

Game 48

核心特点：教科书式的演绎推理展示
关键策略：
- 村民从狼人的单一逻辑失误系统性地解决游戏
- 无需身份角色公开揭露
- 纯粹的演绎推理胜利
胜利条件：通过行为分析和投票模式识别狼人

Game 66

核心特点：高方差狼人赌博与冷静验证的对抗
关键策略：
- 狼人首日假女巫声明欺骗全场
- 真实的身份角色通过夜间验证执行反击
- 戏剧性的双重死亡结局
胜利条件：通过角色验证和精确的夜间行动时机

Game 203

核心特点：操纵与误导的典型案例研究
关键策略：
- 狼人执行令人信服的误导策略
- 将村民转向对抗最有价值的成员
- 干净、战略构建的胜利
胜利条件：通过叙事重构和过程排除法确保狼人胜利

数据使用说明

原始日志阅读：直接打开任意Game_*.txt文件查看完整对话记录
重点时刻研究：使用提供的精选章节定位每个日志中的关键节点

搜集汇总

数据集介绍

构建方式

在狼人杀游戏研究领域，Werewolf Benchmark通过精心设计四场完整对局构建而成。每场游戏均由大型语言模型自主扮演角色，涵盖村民与狼人阵营的对抗，并严格记录全流程文本交互日志。构建过程采用多模型混合配置，例如GPT-5与Gemini-2.5-Pro等先进模型分别担任不同阵营核心角色，通过模拟夜间行动、白天讨论及投票环节生成真实游戏轨迹。所有对话文本与推理过程均被完整保存，形成可直接分析的原始数据档案。

特点

该数据集的核心价值体现在其高度结构化的多维度特征。四场对局完整呈现了不同AI模型的战略决策模式，包含逻辑推演、谎言识别、角色伪装等复杂交互行为。数据记录采用纯文本格式完整保留游戏时序，同时标注关键决策节点的模型内部推理过程。特别值得注意的是，数据集精准捕捉了狼人阵营的欺骗策略与村民阵营的证伪机制，例如Game_203中狼人通过心理操纵实现阵营逆转的经典案例，为研究多智能体博弈行为提供了丰富样本。

使用方法

研究者可通过两种路径利用该数据集：直接阅读原始日志文件获取完整交互序列，或借助精选的关键时刻分析进行定向研究。文本日志采用标准对话格式记录，包含角色发言、推理过程及游戏事件标记，支持自然语言处理任务中的序列分析任务。对于行为学研究，可重点考察Game_48中基于逻辑漏洞的狼人识别案例，或Game_66中的双重身份伪装机制。数据集适用于多智能体系统评估、语言模型决策透明度研究以及社交推理能力基准测试等多重应用场景。

背景与挑战

背景概述

狼人杀基准测试数据集由人工智能研究团队于2024年创建，专注于多智能体协作与对抗场景下的语言推理能力评估。该数据集通过大型语言模型自主完成四局完整狼人杀游戏，记录了智能体在角色扮演、策略制定和逻辑辩论中的交互过程。其核心研究在于探索语言模型在复杂社交推理任务中的表现，为多智能体系统、认知计算和对话系统研究提供了宝贵的实验数据，推动了人工智能在复杂决策环境中的发展。

当前挑战

该数据集主要解决社交推理游戏中语言模型行为一致性与策略合理性的评估挑战，包括模型在信息不完全环境下的谎言识别、逻辑链构建以及多轮对话中的立场维持能力。构建过程中面临多智能体协同控制的复杂性，需确保不同模型间的交互协议统一性，同时要处理游戏规则约束下的动作合法性验证，以及长达数十轮对话的上下文保持问题。

常用场景

经典使用场景

在多智能体协作与对抗研究领域，Werewolf Benchmark通过四场完整的大语言模型自主游戏日志，为研究者提供了分析智能体策略性互动的典型范本。该数据集生动呈现了狼人杀游戏中角色推理、谎言识别与团队协作的复杂动态，尤其适用于检验大语言模型在不完全信息环境下的战略决策能力。研究者可借助这些详尽的对话记录，深入观察智能体如何运用自然语言进行逻辑论证、情感操纵及危机管理，为多智能体系统的行为建模提供宝贵实例。

衍生相关工作

该数据集已衍生出多项关于多智能体通信与策略生成的经典研究。例如基于游戏日志的谎言生成模式分析、角色身份隐藏的对抗训练框架，以及语言模型在社交推理任务中的评估基准构建。这些工作进一步拓展至政治谈判模拟、经济博弈论验证等领域，推动了基于语言模型的复杂交互系统向更高层次的认知深度与策略多样性发展。

数据集最近研究