five

PERSUASIVETOM

收藏
arXiv2025-02-28 更新2025-03-04 收录
下载链接:
https://github.com/YuFangxu/PersuasiveToM
下载链接
链接失效反馈
官方服务:
资源简介:
PERSUASIVETOM是一个旨在评估大型语言模型在说服性对话中理论心智(ToM)能力的基准。该数据集由南京大学的研究团队构建,包含多个领域的多轮说服性对话,旨在评估模型跟踪和理解对话中不断变化的心理状态的能力,以及是否能够利用这些理解来选择和评估有效的说服策略。数据集覆盖了生活、教育、科技等多个社会语境,通过多轮对话跟踪心理状态的改变,并评估模型在处理不同社会地位对话中的心理状态推理能力。

PERSUASIVETOM is a benchmark designed to evaluate the Theory of Mind (ToM) capabilities of large language models (LLMs) in persuasive dialogues. Constructed by a research team from Nanjing University, this dataset comprises multi-turn persuasive dialogues across multiple domains, aiming to assess models' abilities to track and understand the dynamically changing mental states during conversations, as well as their capacity to leverage such understandings to select and evaluate effective persuasive strategies. Covering various social contexts such as daily life, education and technology, the dataset tracks shifts in mental states through multi-turn dialogues, and evaluates models' mental state reasoning capabilities when engaging in conversations with participants of different social statuses.
提供机构:
南京大学
创建时间:
2025-02-28
搜集汇总
数据集介绍
main_image_url
构建方式
PERSUASIVETOM数据集的构建旨在评价大型语言模型(LLMs)在劝说性对话中的心智理论(ToM)能力。数据集围绕劝说性对话构建,模拟真实社交互动场景,并引入了两种类型的问题:心智推理(ToM Reasoning)和心智应用(ToM Application)。心智推理评估LLMs跟踪和了解劝说者和受劝者心理状态变化的能力,包括欲望、信念和意图。心智应用评估LLMs是否能够利用对心理状态的推断来选择和应用有效的劝说策略,例如预测下一个策略或根据受劝者的反应判断策略的有效性。数据集包含多样化的劝说领域,确保在社交情境中的全面评估,并确保心理状态在多轮互动后发生变化,以评估LLMs是否能够跟踪对话中的心理状态变化。
特点
PERSUASIVETOM数据集的特点在于其独特的构建方式,它不仅仅关注信息感知,而是将重点从物理感知转移到更复杂的心理状态,如角色对事件的态度。数据集的设计考虑了现实社交互动中的不对称社会地位,使得LLMs能够在一个更贴近现实生活的社交互动场景中进行评估。此外,PERSUASIVETOM不仅评估LLMs的心理状态推理能力,还评估LLMs是否能够基于对心理状态的理解来预测和评估劝说策略的有效性。数据集包含了15个对话实例,涵盖了35个不同的领域,每个对话平均有4.9个回合,每轮平均有61.3个单词。
使用方法
使用PERSUASIVETOM数据集时,研究者可以将LLMs置于一个动态、多回合的劝说性对话场景中,评估其在不对称社会地位下的心理状态理解能力。数据集提供了两种类型的提示:直接提示和思考链提示,以帮助LLMs更好地理解和回答问题。评估过程中,研究者可以关注LLMs在心理状态推理和心理状态应用方面的表现,包括欲望推理、信念推理、意图推理、策略预测和策略判断等。通过这些评估,研究者可以了解LLMs在理解复杂心理活动和预测劝说策略方面的能力,并为LLMs的社会认知能力提供有价值的评估。
背景与挑战
背景概述
理论心智(ToM)是指理解并预测自己和他人的心理状态的能力,这对于有效的社交互动至关重要。近年来,有研究开始评估大型语言模型(LLMs)是否表现出一种形式的ToM。尽管最近的研究评估了LLMs的ToM,但现有的基准主要关注受Sally-Anne测试启发的合成故事和对话中的物理感知原则,未能捕捉到现实生活中社交互动中复杂心理活动的心里状态。为了弥合这一差距,我们提出了PERSUASIVETOM,一个旨在评估LLMs在说服性对话中ToM能力的基准。我们的框架引入了两个类别的问题:(1)ToM推理,评估LLMs跟踪不断变化的心理状态(例如,说服者的欲望转变)的能力;(2)ToM应用,评估LLMs是否可以利用推断的心理状态来选择有效的说服策略(例如,强调稀有性)并评估说服策略的有效性。在八个最先进的LLMs上的实验表明,尽管模型在多个问题上表现出色,但它们在需要跟踪心理状态的动态变化和全面理解整个对话中心理状态的的问题上却难以回答。我们的目标是使PERSUASIVETOM能够有效地评估LLMs的ToM推理能力,更加关注复杂心理活动。我们的代码可在https://github.com/YuFangxu/PersuasiveToM获得。
当前挑战
PERSUASIVETOM数据集当前面临的挑战主要包括:1)所解决的领域问题的挑战:PERSUASIVETOM旨在评估LLMs在说服性对话中的ToM能力,这是一个复杂的问题,因为心理状态是动态变化的,并且与社交互动的上下文密切相关;2)构建过程中所遇到的挑战:构建一个能够捕捉复杂心理活动的基准是一个挑战,因为需要设计能够反映现实生活中社交互动的对话场景,并且需要考虑对话中双方的心理状态变化。
常用场景
经典使用场景
PERSUASIVETOM数据集主要用于评估大型语言模型(LLMs)在劝说性对话中理解和预测自身及他人心理状态的能力,即机器心智理论(ToM)能力。该数据集通过设计两类问题——ToM推理和ToM应用——来评估LLMs在跟踪心理状态变化(如说服对象的欲望转变)以及利用推断出的心理状态选择有效说服策略(如强调稀缺性)的能力。实验结果表明,LLMs在回答需要跟踪心理状态动态变化的问题时表现不佳,而在理解整个对话中心理状态的能力上也与人类存在显著差距。
解决学术问题
PERSUASIVETOM数据集解决了现有ToM评估基准主要集中在物理感知方面的问题,如Sally-Anne测试,这些测试无法捕捉现实生活中社会互动中复杂的心理活动。PERSUASIVETOM通过引入ToM推理和ToM应用两个维度,使得LLMs能够在更加真实的社交场景中进行评估,从而更好地反映其在实际社交互动中的ToM能力。
衍生相关工作
PERSUASIVETOM数据集的提出推动了ToM评估基准的研究,为后续研究提供了新的思路和方法。例如,一些研究者基于PERSUASIVETOM数据集提出了更细粒度的ToM评估任务,如针对不同类型的心理状态变化(如欲望、信念、意图)进行评估,以及针对不同类型的说服策略(如强调稀缺性、一致性等)进行评估。这些研究有助于进一步理解和评估LLMs的ToM能力,并为ToM评估基准的发展提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作