AgentSense

Name: AgentSense
Creator: 复旦大学
Published: 2024-10-25 15:04:16
License: 暂无描述

arXiv2024-10-25 更新2024-10-29 收录

下载链接：

http://arxiv.org/abs/2410.19346v1

下载链接

链接失效反馈

官方服务：

资源简介：

AgentSense是由复旦大学研究人员创建的一个用于评估语言模型社会智能的基准数据集。该数据集包含1225个多样化的社会场景，这些场景从大量剧本中提取，确保了场景和社交目标的多样性和现实性。数据集的创建过程采用了自下而上的方法，通过提取剧本中的场景模板并合成角色来多样化场景。AgentSense主要用于评估语言模型在复杂社会互动中的目标完成和隐含推理能力，旨在解决语言模型在复杂社交场景中的表现问题。

AgentSense is a benchmark dataset created by researchers at Fudan University for evaluating the social intelligence of language models. It contains 1,225 diverse social scenarios extracted from a large number of scripts, which ensures the diversity and realism of both the scenarios and their corresponding social goals. The dataset was constructed using a bottom-up methodology, by extracting scenario templates from scripts and synthesizing characters to diversify the scenarios. AgentSense is primarily used to assess the capability of language models in accomplishing goals and performing implicit reasoning during complex social interactions, aiming to address the performance limitations of language models in complex social scenarios.

提供机构：

复旦大学

创建时间：

2024-10-25

搜集汇总

数据集介绍

构建方式

AgentSense数据集通过自下而上的方法构建，借鉴了戏剧理论，从大量剧本中提取出1,225个多样化的社交场景。这些场景通过多轮互动进行评估，强调目标完成和隐含推理。数据集的构建包括从剧本中提取场景、提取每个角色的社交目标、确定是否涉及私人信息推理、以及防止数据泄露的模板生成。最终，通过动态生成代理并根据场景约束进行替换，确保了场景的多样性和复杂性。

特点

AgentSense数据集的特点在于其高度多样化和复杂的社交场景，涵盖了从存在目标到成长目标的广泛范围。数据集中的每个参与者都有明确的社交目标和可能的私人信息，强调了在互动中平衡目标完成和隐私保护的重要性。此外，数据集通过多角度评估（自我、他人和第三方）确保了评估的全面性和客观性。

使用方法

使用AgentSense数据集时，研究者可以模拟多轮社交互动，评估语言模型在复杂社交场景中的表现。通过设定每个角色的社交目标和私人信息，研究者可以观察模型在目标完成和隐含推理方面的能力。评估方法包括自我评估、他人评估和第三方模型评估，以及通过多选题评估模型的隐含推理能力。最终，通过计算目标完成和信息推理的平均准确率，得出模型在社交智能方面的综合表现。

背景与挑战

背景概述

AgentSense数据集由复旦大学和字节跳动联合开发，旨在通过互动场景评估语言模型的社会智能。该数据集的核心研究问题是如何在复杂的社会互动中评估大型语言模型（LLMs）的能力。AgentSense的构建基于剧本理论，采用自下而上的方法，从大量剧本中提取出1,225个多样化的社会场景，涵盖从存在目标到成长目标的广泛范围。该数据集的推出填补了现有研究在场景多样性、复杂性和单一视角评估方面的不足，为社会智能的深入研究提供了新的工具和视角。

当前挑战

AgentSense数据集面临的挑战主要集中在两个方面。首先，构建过程中遇到的挑战包括确保场景的多样性和复杂性，以及避免数据泄露。其次，所解决的领域问题挑战在于评估LLMs在复杂社会场景中的表现，特别是高层次的成长需求和私人信息的推理能力。现有研究在静态和非互动测试中未能捕捉到社会互动的动态性，而AgentSense通过多轮互动和隐含推理的评估，揭示了LLMs在复杂社会情境中的局限性。

常用场景

经典使用场景

AgentSense 数据集的经典使用场景主要集中在评估语言模型在复杂社交互动中的社会智能。通过构建多样化的社交场景，该数据集允许研究人员在多轮互动中测试语言模型在实现社交目标和隐含推理方面的能力。例如，在一个家庭聚会或办公室对话的场景中，模型需要模拟角色，完成如寻求原谅、缓解紧张关系或提供反馈等社交目标。

衍生相关工作

AgentSense 数据集的引入催生了一系列相关研究工作，特别是在社交智能评估和语言模型角色扮演领域。例如，有研究利用该数据集开发了新的评估指标，以更全面地衡量模型的社会智能。同时，也有研究探索了如何在不同社交场景中优化模型的表现，以及如何通过多轮互动提升模型的隐含推理能力。这些工作不仅推动了语言模型的发展，也为社交智能研究提供了新的视角和方法。

数据集最近研究