LLMAFIA
收藏arXiv2025-06-06 更新2025-06-07 收录
下载链接:
https://github.com/niveck/LLMafia
下载链接
链接失效反馈官方服务:
资源简介:
LLMAFIA数据集是由希伯来大学计算机科学与工程学院、墨尔本大学计算与信息系统学院的研究人员创建的,旨在评估一个自适应异步的LLM代理在在线游戏中的表现。该数据集包含21场在线Mafia游戏,共有2558条消息,其中211条由LLM代理发送。数据集用于研究LLM代理在异步多玩家环境中的行为,以及人类与LLM代理之间的交互。数据集的内容包括所有玩家的消息、投票、时间戳等,为未来研究人类与机器之间的异步通信提供了基础。
The LLMAFIA dataset was developed by researchers from the School of Computer Science and Engineering at the Hebrew University of Jerusalem and the School of Computing and Information Systems at the University of Melbourne, with the goal of evaluating the performance of an adaptive asynchronous LLM Agent in online games. This dataset encompasses 21 online Mafia games, totaling 2558 messages, of which 211 are sent by the LLM Agent. It is utilized to investigate the behaviors of LLM Agents in asynchronous multi-player environments, as well as the interactions between humans and LLM Agents. The dataset includes messages, votes, timestamps and other relevant information from all players, serving as a foundational resource for future research on asynchronous communication between humans and machines.
提供机构:
希伯来大学计算机科学与工程学院、墨尔本大学计算与信息系统学院
创建时间:
2025-06-06
原始信息汇总
LLMafia数据集概述
数据集基本信息
- 名称:LLMafia
- 用途:用于LLM与多个人类参与者玩Mafia游戏的异步环境
数据内容
- 数据位置:
games目录下 - 数据组成:
- 每个游戏子目录包含以下文件:
- 所有玩家(人类和LLM)发送的消息
- 游戏管理消息
- 元数据
- 匿名化后的游戏配置
- 每个游戏子目录包含以下文件:
联系方式
- 问题反馈:niv.eckhaus@mail.huji.ac.il
搜集汇总
数据集介绍

构建方式
LLMAFIA数据集的构建基于异步多参与者环境下的实时决策模拟,采用两阶段提示框架。首先,调度器模块通过动态调整的提示决定是否在当前时刻发送消息,若决定发送,则生成器模块负责生成具体内容。数据集包含21场由人类玩家与LLM智能体共同参与的Mafia游戏,总计2558条消息,其中211条由智能体发送。数据采集过程中,智能体通过模拟人类打字时间延迟以增强行为真实性,同时确保参与者匿名且知情同意。
特点
该数据集的核心特点体现在其异步交互的真实性与细粒度标注。所有消息均附带精确时间戳,完整记录游戏阶段(日间/夜间)、角色分配(黑帮/平民)及投票动态。智能体消息与人类消息在时序分布上高度接近(均值4.28 vs 4.54条/阶段),但内容特征存在差异:智能体消息平均长度达10.67词(人类4.19词),且词汇多样性更高。独特之处在于首次实现LLM智能体在非回合制社交游戏中的自然嵌入,为研究人机异步交互提供基准。
使用方法
使用该数据集时,研究者可通过时间序列分析探究消息发送间隔的统计规律(如图5所示),或利用消息嵌入(BGE-M3模型生成)进行玩家类型分类实验(表4)。游戏胜负记录支持评估智能体策略有效性(图6),而发言频率与投票结果的相关性(图7)可用于社交行为建模。数据已结构化存储为JSON格式,包含游戏元数据、角色信息、完整聊天记录及事后人类评估分数,支持端到端的异步通信算法开发与多智能体系统测试。
背景与挑战
背景概述
LLMAFIA数据集由耶路撒冷希伯来大学和墨尔本大学的研究团队于2025年6月发布,聚焦于大语言模型(LLM)在异步群体交流中的行为模拟。该数据集以经典社交推理游戏'黑手党'为实验场景,记录了21场包含人类玩家与LLM智能体的对局数据,共计2558条带时间戳的对话消息。研究团队创新性地设计了双模块异步智能体架构,通过动态调度机制模拟人类发言时机的决策过程,填补了LLM在非结构化多智能体交互领域的研究空白。该数据集为探索人机混合社交场景中的异步通信机制提供了重要基准,对社交计算、群体智能等领域具有方法论启示意义。
当前挑战
构建LLMAFIA数据集面临双重挑战:在领域问题层面,需解决异步社交场景中发言时机决策的量化评估难题,传统同步对话评估指标在此失效;同时需平衡游戏策略性与语言自然性,避免智能体因过度优化游戏胜率而产生非人类对话特征。在构建技术层面,主要挑战包括:1) 动态调度提示工程需精确控制发言频率分布以匹配人类行为;2) 消息生成需协调角色扮演一致性、游戏策略性与语言风格自然性;3) 时间延迟模拟需根据消息长度动态调整以增强行为拟真度;4) 人机交互数据采集需解决实验伦理与数据匿名化处理的矛盾。
常用场景
经典使用场景
LLMAFIA数据集最经典的使用场景在于评估大型语言模型(LLM)在异步群体沟通中的表现。该数据集通过模拟“Mafia”游戏中的多玩家互动,为研究者提供了一个独特的测试平台,以考察LLM代理在决定何时发言以及如何融入人类玩家对话中的能力。这种场景不仅要求模型具备生成自然语言的能力,还需在复杂的社交动态中做出实时决策,从而模拟真实世界中的异步沟通环境。
解决学术问题
LLMAFIA数据集解决了异步群体沟通中LLM代理的行为建模问题。传统研究多集中于同步对话场景,而该数据集填补了异步环境下LLM代理如何平衡发言时机与内容生成的空白。通过分析代理在游戏中的表现,研究者能够深入探讨LLM在动态社交环境中的适应性、人类相似性以及策略性决策能力,为多智能体沟通和社交AI的发展提供了重要参考。
衍生相关工作
基于LLMAFIA数据集,衍生了一系列关于异步LLM代理的研究工作。例如,Neuberger等人(2024)开发的Sauce框架进一步扩展了异步多智能体交互的模拟环境;Guertler等人(2025)的TextArena平台则将该数据集的理念应用于更广泛的游戏场景。这些工作共同推动了LLM在复杂社交环境中的应用边界,为未来研究提供了丰富的实验范式和基准。
以上内容由遇见数据集搜集并总结生成



