EgoSocialArena
收藏arXiv2024-10-09 更新2024-10-11 收录
下载链接:
https://github.com/gyhou123/EgoSocialArena
下载链接
链接失效反馈官方服务:
资源简介:
EgoSocialArena是由浙江大学开发的一个用于评估大型语言模型(LLMs)在第一人称视角下理论思维(ToM)和社会化能力的新框架。该数据集包含两个评估环境:静态环境和交互环境,涵盖七个场景,总计2195条数据。数据集的创建过程包括将现有的第三人称ToM基准转换为第一人称视角,并设计了多个独特的社会情境来测试LLMs的社会化能力。EgoSocialArena旨在解决LLMs在真实社交世界中的表现问题,特别是在理解和推理他人心理状态以及自身心理状态随社交情境变化的能力。
EgoSocialArena is a novel framework developed by Zhejiang University for evaluating large language models (LLMs) on theory of mind (ToM) and socialization capabilities from a first-person perspective. This dataset comprises two evaluation environments: static and interactive ones, spanning seven scenarios with a total of 2195 data instances. The development of EgoSocialArena involves two key components: converting existing third-person ToM benchmarks into first-person perspectives, and creating several distinct social scenarios to assess the socialization capabilities of LLMs. This framework is designed to address the performance limitations of LLMs in real-world social contexts, specifically their abilities to understand and reason about both others' mental states and their own mental states that shift in response to social scenarios.
提供机构:
浙江大学
创建时间:
2024-10-09
原始信息汇总
EgoSocialArena
总体概述
- 数据集名称:EgoSocialArena
- 包含图片:
/image/figure1.png(标题为“Introduction”)
数据转换
- 描述:将第三人称视角转换为第一人称视角
- 包含图片:
/image/figure2.png(标题为“Conversion”)
示例
- 包含图片:
/image/figure3.png(标题为“Example”)
搜集汇总
数据集介绍

构建方式
EgoSocialArena数据集的构建基于对现有第三人称视角ToM基准的系统转换,将其转化为第一人称视角。具体方法包括修改系统消息、故事、问题和答案选项,以使LLMs能够从第一人称视角体验社会事件。此外,数据集还设计了引人入胜且独特的社会情境,如反事实、新世界和二十一点游戏场景,以及在互动环境中评估LLMs的ToM能力,包括在数字猜测和德州扑克游戏中的对手行为模式建模。
特点
EgoSocialArena数据集的显著特点在于其从第一人称视角评估LLMs的ToM和社会化能力,这与传统的第三人称视角评估形成鲜明对比。数据集包含两个评估环境:静态环境和互动环境,涵盖七个场景,总计2195个数据条目。此外,数据集通过构建不同认知水平的基于规则的代理和训练强化学习代理,确保评估过程的公平性和合理性。
使用方法
EgoSocialArena数据集的使用方法包括对LLMs在静态和互动环境中的ToM和社会化能力进行全面评估。研究者可以通过数据集中的故事、问题和答案选项,以及在互动环境中的对手行为模式,评估LLMs在不同社会情境下的表现。数据集还提供了详细的实验设置和评估方法,帮助研究者进行深入分析和比较不同LLMs的性能。
背景与挑战
背景概述
在人工智能(AI)领域,特别是大型语言模型(LLMs)的发展中,评估这些模型在社交世界中的理论思维(Theory of Mind, ToM)和社会化能力成为一个关键问题。EgoSocialArena数据集由浙江大学的Guiyang Hou等人于2024年创建,旨在从第一人称视角评估LLMs的ToM和社会化能力。该数据集通过模拟静态和互动环境中的多种社交场景,如日常生活、反事实情境、新世界、二十一点、数字猜测和有限德州扑克,共计2195个数据条目。EgoSocialArena的提出填补了现有研究中LLMs作为被动观察者的第三视角评估的空白,强调了从第一人称视角评估这些能力的必要性,这对于推动具身AI(Embodied AI)的发展具有重要意义。
当前挑战
EgoSocialArena数据集面临的挑战主要集中在两个方面:一是从第三视角到第一视角的转换过程中,如何确保评估方法的有效性和合理性;二是如何在互动环境中构建具有稳定能力和行为策略的代理,以避免在评估过程中出现‘保姆’现象,确保评估的公平性。此外,数据集还需要解决在不同认知层次的规则基础代理和强化学习代理的构建问题,以及在复杂社交情境中评估LLMs的ToM和社会化能力的准确性。这些挑战不仅涉及技术实现,还关系到对LLMs在真实社交世界中应用潜力的深入理解。
常用场景
经典使用场景
EgoSocialArena数据集的经典使用场景在于评估大型语言模型(LLMs)在第一人称视角下的心智理论(ToM)和社会化能力。通过模拟日常生活中的社交互动、反事实情境、新世界探索、扑克游戏等多种场景,该数据集提供了一个全面的框架,用于测试和分析LLMs在真实社交环境中的表现。这些场景不仅涵盖了静态环境中的推理任务,还包括动态交互环境中的策略制定和行为预测,从而为研究LLMs在复杂社交互动中的适应性和灵活性提供了宝贵的资源。
实际应用
EgoSocialArena数据集在实际应用中具有广泛的前景。首先,它可以用于开发和优化具有社交智能的AI助手,使其能够更好地理解和回应用户的情感和意图,从而提升人机交互的自然性和效率。其次,该数据集可应用于教育领域,帮助设计更具互动性和适应性的学习系统,使AI能够根据学生的学习状态和需求进行个性化教学。此外,EgoSocialArena还可用于心理健康领域,通过模拟社交情境来评估和训练AI在心理咨询和支持中的应用,为心理健康服务提供新的工具和方法。
衍生相关工作
EgoSocialArena数据集的引入激发了大量相关研究工作。首先,基于该数据集的研究揭示了LLMs在第一人称视角下的心智理论和社会化能力的局限性和潜力,推动了模型改进和优化的方向。其次,该数据集促进了跨学科的合作,如心理学、计算机科学和社会学等领域的研究者共同探讨AI在社交互动中的表现和影响。此外,EgoSocialArena还启发了新的评估方法和基准的开发,如基于互动环境的动态评估框架,进一步丰富了人工智能在社交智能领域的研究工具和方法。
以上内容由遇见数据集搜集并总结生成



