five

PersuasiveToM

收藏
github2025-03-07 更新2025-03-05 收录
下载链接:
https://github.com/Yu-Fangxu/PersuasiveToM
下载链接
链接失效反馈
官方服务:
资源简介:
PersuasiveToM是一个用于评估机器在说服性对话中的心理理论(ToM)的基准数据集,它评估大型语言模型在理解说服者与被说服者的心理状态(信念、欲望、意图)方面的能力,并应用这些理解来进行说服。

PersuasiveToM is a benchmark dataset for evaluating machines' theory of mind (ToM) in persuasive dialogues. It assesses the capabilities of large language models (LLMs) to understand the mental states (beliefs, desires, and intentions) of both persuaders and persuadees, and to apply such understandings to engage in persuasive conversations.
创建时间:
2025-02-28
原始信息汇总

PersuasiveToM: 评估机器在说服性对话中理论心智的基准数据集

数据集简介

  • 数据集名称:PersuasiveToM
  • 研究领域:理论心智(ToM)在说服性对话中的应用评估
  • 数据集用途:评估大型语言模型(LLM)在理解说服性对话中参与者心理状态(信念、愿望、意图)的能力,并应用这些理解进行说服。

数据集详情

使用方法

  1. 下载代码: bash git clone https://github.com/Yu-Fangxu/PersuasiveToM.git

  2. 运行评估命令: bash bash evaluation/run.sh meta-llama/Llama-3.1-8B-Instruct

    可以更改模型路径以评估不同的LLM。

引用信息

@misc{yu2025persuasivetombenchmarkevaluatingmachine, title={PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues}, author={Fangxu Yu and Lai Jiang and Shenyi Huang and Zhen Wu and Xinyu Dai}, year={2025}, eprint={2502.21017}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.21017}, }

搜集汇总
数据集介绍
main_image_url
构建方式
PersuasiveToM数据集的构建旨在评估机器在说服性对话中理解心智状态(信念、欲望、意图)的能力。该数据集通过精心设计的对话场景,涵盖说服者与被说服者的心理互动,为大型语言模型(LLM)提供了理解与运用心智理论(ToM)的测试平台。
特点
该数据集的特点在于其专注于说服性对话中的心智理解,不仅评估LLM对对话双方心理状态的理解能力,还评估其在说服过程中的心智状态应用能力。数据集的构建基于真实对话的模拟,保证了评估的实用性与准确性。
使用方法
使用PersuasiveToM数据集首先需要通过Git克隆相应的仓库。随后,用户可以运行提供的脚本对不同的LLM进行评估。评估过程中,用户可以根据需要更改模型路径以测试不同的语言模型。此外,数据集的详细使用方法和模型评估结果可在相关论文中查阅。
背景与挑战
背景概述
PersuasiveToM数据集是在2025年由Fangxu Yu、Lai Jiang、Shenyi Huang、Zhen Wu和Xinyu Dai等研究人员创建的,旨在研究机器在说服性对话中理论心智(ToM)的能力。该数据集的核心研究问题是评估大型语言模型(LLM)在理解对话双方的心理状态(信念、愿望、意图)方面的表现,以及如何应用这些理解来进行说服。PersuasiveToM的创建,为评估机器在复杂交流场景中的心智理论能力提供了新的标准和工具,对自然语言处理和人工智能领域产生了重要影响。
当前挑战
该数据集面临的挑战主要包括:1)在说服性对话中,理解和应用对话双方心理状态的复杂性;2)构建过程中,如何准确模拟和量化人类对话中的心理状态变化;3)在多样化的对话场景中,确保数据集的泛化能力和适用性。此外,还需面对构建高效、可扩展的评价指标和方法,以准确评估LLM在ToM方面的性能。
常用场景
经典使用场景
在探讨机器理解人类心智状态的领域,PersuasiveToM数据集提供了一个评价机器在说服性对话中心智理论(ToM)能力的标准平台。该数据集的核心应用场景在于评估大型语言模型(LLM)对于说服者与被说服者心理状态的理解能力,包括信念、欲望和意图的把握。
实际应用
在实用层面,PersuasiveToM数据集的应用场景广泛,例如在客户服务、在线咨询、教育培训等领域的对话系统中,它可以帮助机器更好地理解人类用户的心理需求,从而提升交互的质量和效果。
衍生相关工作
基于PersuasiveToM数据集,学术界已经衍生出一系列相关研究工作,如针对不同类型对话场景的心智理论模型开发、跨文化背景下的说服性对话分析等,这些研究进一步推动了机器对话系统在理解和生成方面的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作