five

SocialMaze

收藏
Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/MBZUAI/SocialMaze
下载链接
链接失效反馈
官方服务:
资源简介:
SocialMaze数据集是用于评估大型语言模型社会推理能力的基准测试,特别包含隐藏角色推理任务。该数据集以问题回答的形式组织,包括游戏上下文、规则说明、游戏进展、角色身份和推理过程等信息。数据集分为简单和困难两种配置,并提供了Player 1角色的分布情况。可以直接使用数据集中的字段来评估模型在识别罪犯和Player 1角色方面的性能。
提供机构:
Mohamed Bin Zayed University of Artificial Intelligence
创建时间:
2025-05-14
原始信息汇总

SocialMaze Benchmark 数据集概述

数据集基本信息

  • 语言:英语 (en)
  • 许可证:CC-BY-4.0
  • 标签:社会推理、大语言模型、基准测试、问答、逻辑推理、心智理论
  • 任务类别:问答
  • 规模类别:1M<n<10M

数据集结构

数据字段

  • system_prompt (string):提供游戏背景、规则和LLM指令的系统提示。
  • prompt (string):用户提示,详细描述游戏进程,包括所有玩家在各轮次的陈述,并提出两个关键问题(识别罪犯和玩家1的真实角色)。
  • answer (string):正确答案,指定真正的罪犯和玩家1的实际角色。
  • reasoning_process (string):算法生成的逐步推理链,逻辑推导出正确答案。
  • round 1 (string):第一轮所有玩家陈述的汇总字符串。
  • round 2 (string):第二轮所有玩家陈述的汇总字符串。
  • round 3 (string):第三轮所有玩家陈述的汇总字符串。

数据分割

  • easy 分割:包含6个玩家的场景(3名调查员、1名罪犯、1名谣言传播者、1名疯子)。
  • hard 分割:包含10个玩家的场景(5名调查员、1名罪犯、2名谣言传播者、2名疯子)。

玩家1角色分布

  • 调查员:3%
  • 罪犯:2%
  • 谣言传播者:60%
  • 疯子:35%

任务描述:隐藏角色推理

角色定义

  • 调查员:总是说真话。
  • 罪犯:可以选择说谎或说真话,目标是保持不被发现。
  • 谣言传播者:自认为是调查员,但关于其他玩家的陈述随机为真或假。
  • 疯子:自认为是罪犯,但关于其他玩家的陈述随机为真或假。

游戏目标

  1. 识别真正的罪犯。
  2. 推断玩家1的真实角色。

使用方法

  • 直接评估模型:提供system_promptprompt字段,生成响应并与answer字段比较。
  • reasoning_process字段可用于错误分析、开发思维链策略或作为训练数据。

引用

bibtex @article{xu2025socialmaze, title={SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models}, author={Xu, Zixiang and Wang, Yanbo and Huang, Yue and Ye, Jiayi and Zhuang, Haomin and Song, Zirui and Gao, Lang and Wang, Chenxi and Chen, Zhaorun and Zhou, Yujun and Li, Sixian and Pan, Wang and Zhao, Yue and Zhao, Jieyu and Zhang, Xiangliang and Chen, Xiuying}, year={2025}, note={Under review} }

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
SocialMaze数据集作为评估大型语言模型社会推理能力的基准工具,其构建过程体现了严谨的实验设计。该数据集采用游戏化场景模拟,通过设计包含6人或10人的多角色互动情境,系统化生成带有隐藏身份和复杂社交互动的对话数据。研究团队精心设计了四种角色行为模式(调查员、罪犯、谣言传播者和狂人),并采用算法生成三轮对话内容及标准推理过程,确保每个案例具有唯一可验证的解决方案。数据以问答形式结构化呈现,包含系统提示、游戏进程描述、标准答案和分步骤推理链等关键字段。
特点
该数据集最显著的特点是模拟真实社交场景中的信息不对称和认知偏差。通过设置不同可信度的发言角色(如必然说真话的调查员、随机发言的谣言传播者等),构建了具有层次化难度的推理挑战。数据分为简单和困难两个子集,分别包含6人和10人游戏场景,其中Player1角色分布经过特殊设计(谣言传播者占60%)。每个案例附带算法生成的黄金标准推理链,不仅提供答案验证依据,更为研究模型的社会认知偏差提供了珍贵样本。
使用方法
使用该数据集时,研究者可将系统提示和游戏进程描述作为输入,通过对比模型输出与标准答案来评估推理能力。数据集特别适用于三种研究场景:直接评估模型在隐藏角色推理任务的表现;利用推理过程字段进行错误归因分析;作为高质量训练样本用于微调模型的社交推理能力。评估时需注意模型仅能获取Player1的视角信息,这要求模型具备从有限观察中重构全局认知的能力,对多轮对话中的矛盾陈述进行概率化推理。
背景与挑战
背景概述
SocialMaze数据集作为评估大型语言模型社交推理能力的基准工具,由Xu等人于2025年提出,旨在解决复杂社交场景下的角色推理与欺骗识别问题。该数据集聚焦于多智能体交互中的隐藏角色演绎任务,通过精心设计的问答结构,模拟真实社交互动中的信息不对称与策略性欺骗行为。其核心研究价值在于推动语言模型对心理理论、逻辑推理及 deception handling 等高级认知能力的突破,为人工智能社交认知研究提供了标准化评估框架。数据集由6-10人参与的博弈场景构成,涵盖调查员、罪犯、谣言散布者和偏执狂四种角色,通过三轮对话揭示角色身份,已成为测试语言模型社会性智能的重要试金石。
当前挑战
该数据集面临双重挑战:在领域问题层面,隐藏角色推理任务要求模型在信息污染环境下(如谣言散布者的随机陈述、偏执狂的自我认知错位)保持稳定的事实提取与意图解构能力,这对现有语言模型的信念修正与反事实推理机制提出严峻考验。数据构建过程中,研究者需平衡游戏复杂度与可解性,确保每轮对话既包含充分推理线索又维持足够干扰项,同时通过算法生成的金标准推理链(reasoning_process)需兼具逻辑严谨性与教学示范价值。多角色行为规则的耦合设计(如罪犯的策略性说谎与谣言散布者的无意识欺骗)进一步增加了场景建模与数据标注的复杂度。
常用场景
经典使用场景
在认知科学与人工智能交叉领域,SocialMaze数据集通过其精心设计的隐藏角色推理任务,为评估大语言模型的社会推理能力提供了标准化测试平台。该数据集模拟了多智能体交互中常见的身份隐藏与信息欺骗场景,研究者通过分析模型在识别罪犯角色和推断自身真实身份两个关键任务上的表现,能够系统性地衡量模型处理复杂社交情境的能力。这种评估方式尤其适用于验证模型在对抗性环境下的逻辑推理与心理理论应用水平。
实际应用
在智能对话系统开发中,SocialMaze的评估框架可直接应用于客服机器人欺骗检测模块的优化。游戏化场景构建的交互范式,为在线教育平台开发社交能力训练工具提供了设计模板。医疗健康领域借鉴其角色混淆机制,可构建精神障碍患者认知评估的数字化工具。金融风控系统则利用其多源信息验证逻辑,增强了异常交易识别中的人工智能辅助决策能力。
衍生相关工作
该数据集已催生多个重要研究方向,包括基于推理链蒸馏的社会认知微调方法、多智能体博弈中的信念传播模型,以及角色感知的对话生成系统。受其启发的SocialBERT模型通过预训练任务重构,显著提升了身份推理准确率。在认知架构领域衍生的分层推理框架,将游戏回合机制转化为可扩展的社会情境理解模块,为构建具有心理理论的人工智能奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作