SocialMaze
收藏arXiv2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/MBZUAI/SocialMaze
下载链接
链接失效反馈官方服务:
资源简介:
SocialMaze是一个旨在评估大型语言模型(LLMs)社交推理能力的新基准数据集。该数据集由三个核心挑战组成:深度推理、动态交互和信息不确定性,并提供六个多样化的任务,涵盖社交推理游戏、日常生活交互和数字社区平台。数据集共包含64000条数据,通过自动化和人工验证确保数据质量,旨在解决LLMs在社交推理任务中的能力评估问题。
提供机构:
Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), University of Notre Dame, University of Chicago, University of Michigan, Microsoft, University of Southern California
创建时间:
2025-05-30
原始信息汇总
SocialMaze Benchmark 数据集概述
数据集基本信息
- 语言:英语 (en)
- 许可证:CC-BY-4.0
- 标签:社会推理、大语言模型、基准测试、问答、逻辑推理、心智理论
- 任务类别:问答
- 规模类别:1M<n<10M
数据集结构
数据字段
system_prompt(string):提供游戏背景、规则和LLM指令的系统提示。prompt(string):用户提示,详细描述游戏进程,包括所有玩家在各轮次的陈述,并提出两个关键问题(识别罪犯和玩家1的真实角色)。answer(string):正确答案,指定真正的罪犯和玩家1的实际角色。reasoning_process(string):算法生成的逐步推理链,逻辑推导出正确答案。round 1(string):第一轮所有玩家陈述的汇总字符串。round 2(string):第二轮所有玩家陈述的汇总字符串。round 3(string):第三轮所有玩家陈述的汇总字符串。
数据分割
easy分割:包含6个玩家的场景(3名调查员、1名罪犯、1名谣言传播者、1名疯子)。hard分割:包含10个玩家的场景(5名调查员、1名罪犯、2名谣言传播者、2名疯子)。
玩家1角色分布
- 调查员:3%
- 罪犯:2%
- 谣言传播者:60%
- 疯子:35%
使用方法
- 通过提供
system_prompt和prompt字段直接评估模型。 - 生成的响应可以与
answer字段进行比较以评估性能。 reasoning_process字段可用于错误分析、开发推理策略或作为训练数据。
任务描述:隐藏角色推理
玩家角色
- 调查员:总是说真话。
- 罪犯:可以选择说谎或说真话,目标是保持不被发现。
- 谣言传播者:认为自己是调查员,但关于其他玩家的陈述随机为真或假。
- 疯子:认为自己是罪犯,但关于其他玩家的陈述随机为真或假。
游戏目标
- 识别真正的罪犯。
- 推断玩家1的真实角色。
引用
bibtex @article{xu2025socialmaze, title={SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models}, author={Xu, Zixiang and Wang, Yanbo and Huang, Yue and Ye, Jiayi and Zhuang, Haomin and Song, Zirui and Gao, Lang and Wang, Chenxi and Chen, Zhaorun and Zhou, Yujun and Li, Sixian and Pan, Wang and Zhao, Yue and Zhao, Jieyu and Zhang, Xiangliang and Chen, Xiuying}, year={2025}, note={Under review} }
搜集汇总
数据集介绍

构建方式
SocialMaze数据集通过多模态方法构建,结合了算法生成和真实数据采集。在社交推理游戏任务中,采用基于规则的自动生成机制,确保每个场景具有逻辑可解性;在数字社区平台任务中,则使用真实用户评论和OpenReview数据,辅以LLM生成模拟数据以增加多样性。数据集通过分层社交交互图框架建模动态社交关系,并经过人工验证确保质量,其中91%的实例通过多人评审验证。
使用方法
使用SocialMaze时需分阶段处理:首先加载分层图结构数据或自然语言描述,通过顶点中心查询、边中心查询和图级查询三类任务评估模型能力。对于动态交互任务,需逐轮累积信息并更新推理;处理不确定信息时建议采用思维链技术。基准测试支持自动化评估和人工验证,并提供微调示例以提升模型在复杂社交场景中的表现。
背景与挑战
背景概述
SocialMaze数据集由Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)等机构的研究团队于2025年提出,旨在系统评估大型语言模型(LLMs)的社会推理能力。该数据集填补了现有基准在动态交互、深度推理和信息不确定性三个核心维度的评估空白,包含6项任务覆盖社交推理游戏、日常生活互动和数字社区平台三大场景。数据集通过算法生成和真实数据采集相结合的方式构建,并经过严格的人工验证,为研究LLMs在复杂社会认知任务中的表现提供了标准化测试平台。
当前挑战
SocialMaze面临的核心挑战体现在:1) 领域问题挑战:解决现有基准对现实社会场景过度简化的问题,要求模型处理动态交互、推断他人心理状态并在信息不确定条件下进行推理;2) 构建过程挑战:确保生成数据的逻辑一致性,特别是在角色推理任务中需验证每个场景存在唯一解,同时平衡真实用户数据与模拟数据的比例以保持生态效度。具体任务设计需协调深度推理的认知复杂度与评估的可行性,如隐藏角色推断任务需建模角色认知偏差与策略性欺骗行为。
常用场景
经典使用场景
SocialMaze数据集专为评估大型语言模型(LLM)在复杂社交推理任务中的表现而设计。其经典使用场景包括社交推理游戏、日常生活互动和数字社区平台三大类任务。例如,在“隐藏角色推理”任务中,模型需通过多轮玩家陈述推断真实罪犯及自身角色,模拟了社交推理中的动态交互和信息不确定性。数据集通过分层社交互动图结构,将社交成员及其交互建模为时间依赖的图序列,要求模型处理深度推理、动态交互和信息不确定性三大核心挑战。
解决学术问题
SocialMaze解决了现有基准在评估LLM社交推理能力时的三大局限:静态场景缺乏动态交互、信息过度简化忽略真实噪声与欺骗、任务过于基础无法挑战先进模型。通过引入六项跨场景任务,该数据集系统评估模型在推断他人心理状态(如意图、信念)、处理多轮交互中的语境演变、以及识别误导性信息等方面的能力。其实验表明,链式思维推理能力强的模型在需深层推断的任务中表现更优,而信息不确定性会显著降低模型推理准确率,为提升LLM的社交认知能力提供了明确改进方向。
实际应用
该数据集的实际应用价值体现在在线社区管理、媒体内容分析和人机交互设计等领域。例如,“评论决策预测”任务模拟学术论文评审过程,可优化自动化审稿系统;“用户画像推断”任务通过文本分析预测用户 demographics,助力个性化推荐系统。在社交游戏场景中,模型对隐藏角色和欺骗行为的识别能力可直接应用于“狼人杀”等游戏的AI对手开发。数据集的多维度设计使其成为训练AI系统处理真实社交复杂性的有效工具。
数据集最近研究
最新研究方向
近年来,SocialMaze数据集在大型语言模型(LLMs)的社会推理能力评估领域引起了广泛关注。该数据集通过引入深度推理、动态交互和信息不确定性三个核心维度,为评估模型在复杂社交场景中的表现提供了系统化的框架。当前研究热点集中在模型在社交推理游戏、日常生活互动和数字社区平台等多样化任务中的表现分析。前沿探索方向包括模型在动态交互中的信息整合能力、不确定性条件下的推理鲁棒性,以及通过针对性微调提升模型在复杂社交场景中的性能。该数据集的影响在于填补了现有基准测试在真实社交场景模拟方面的不足,为开发更具社会认知能力的AI系统提供了重要工具。其意义不仅体现在推动LLMs社会推理能力的量化评估,还为理解模型在信息噪声和欺骗性环境中的认知局限提供了实证基础。
相关研究论文
- 1SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language ModelsMohamed bin Zayed University of Artificial Intelligence (MBZUAI), University of Notre Dame, University of Chicago, University of Michigan, Microsoft, University of Southern California · 2025年
以上内容由遇见数据集搜集并总结生成



