five

ToMATO

收藏
arXiv2025-01-15 更新2025-01-17 收录
下载链接:
https://github.com/nttmdlab-nlp/ToMATO
下载链接
链接失效反馈
官方服务:
资源简介:
ToMATO是由NTT公司开发的一个心理理论(ToM)基准数据集,旨在通过LLM-LLM对话生成多样化的心理状态数据。该数据集包含5400个问题、753个对话和15种人格特质模式,涵盖了信念、意图、欲望、情感和知识五类心理状态。数据集的生成过程通过信息不对称的设计,促使角色扮演的LLM在对话中表达其心理状态,从而生成虚假信念。ToMATO的应用领域主要集中在评估大型语言模型的心理理论能力,尤其是对虚假信念的理解和对多样化人格特质的鲁棒性。该数据集为研究LLM在真实社交场景中的表现提供了重要参考。

ToMATO is a theory of mind (ToM) benchmark dataset developed by NTT Corporation, which aims to generate diverse mental state data via LLM-to-LLM conversations. This dataset contains 5,400 questions, 753 dialogues, and 15 personality trait patterns, covering five categories of mental states: beliefs, intentions, desires, emotions, and knowledge. The dataset is generated through an information asymmetry design, which prompts role-playing LLMs to express their mental states during conversations, thereby generating false beliefs. The main application areas of ToMATO focus on evaluating the theory of mind capabilities of large language models, particularly their understanding of false beliefs and robustness to diverse personality traits. This dataset provides an important reference for researching the performance of LLMs in real social scenarios.
提供机构:
NTT公司
创建时间:
2025-01-15
搜集汇总
数据集介绍
main_image_url
构建方式
ToMATO数据集的构建基于LLM-LLM对话,通过信息不对称的设计捕捉角色扮演大语言模型的心理状态。具体而言,研究人员设计了Inner Speech提示方法,要求角色扮演的LLM在每次发言前将其心理状态以思维的形式表达出来。这些思维被用作对话中角色心理状态问题的答案。通过隐藏角色的思维、目标和个性特征,数据集中引入了信息不对称,从而生成了关于各种心理状态的错误信念。此外,研究人员还为LLM分配了不同的个性特征,以多样化对话内容和思维表达。最终,数据集包含5400个问题、753个对话和15种个性特征模式。
特点
ToMATO数据集的特点在于其全面性,涵盖了五种心理状态(信念、意图、欲望、情感和知识)的一阶和二阶推理。数据集还特别关注了错误信念的生成,尤其是关于他人心理状态的错误信念。通过引入信息不对称和多样化的个性特征,ToMATO能够有效评估大语言模型在不同心理状态和个性特征下的推理能力。此外,数据集的对话内容基于真实场景,能够更好地反映现实世界中的社交互动。
使用方法
ToMATO数据集的使用方法主要围绕多选问答任务展开。每个问题基于生成的对话内容,要求模型推断角色在特定时刻的心理状态。数据集中的问题分为一阶和二阶心理状态推理,并特别设计了错误信念子集(ToMATO-FB)来评估模型对错误信念的理解能力。研究人员可以通过评估模型在ToMATO上的表现,分析其在理解复杂心理状态和多样化个性特征方面的能力。此外,数据集还可用于研究大语言模型在真实社交场景中的推理能力,推动其在人机交互中的应用。
背景与挑战
背景概述
ToMATO数据集由NTT Corporation的研究团队于2025年提出,旨在解决现有Theory of Mind (ToM)基准在真实场景中的局限性。该数据集通过大语言模型(LLM)之间的对话生成,重点关注角色扮演LLM在信息不对称情况下的心理状态表达。ToMATO涵盖了信念、意图、欲望、情感和知识五类心理状态,并通过内语言提示(Inner Speech Prompting)捕捉一阶和二阶心理状态。该数据集包含5400个问题、753段对话和15种人格特质模式,旨在全面评估LLM在复杂社交情境中的心理推理能力。ToMATO的提出为LLM在真实世界应用中的心理理论能力提供了新的评估标准。
当前挑战
ToMATO数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,现有ToM基准未能全面评估多种心理状态,尤其是二阶心理状态和错误信念的理解。ToMATO通过引入信息不对称和多样化人格特质,试图解决这一问题,但LLM在理解错误信念和应对多样化人格特质时仍表现不佳,尤其是GPT-4o mini等先进模型在错误信念任务上的表现显著低于人类水平。其次,在数据集构建过程中,生成高质量的心理状态对话和确保信息不对称的有效性是一大挑战。尽管通过内语言提示和LLM-LLM对话生成机制,ToMATO成功捕捉了复杂的心理状态,但如何确保生成的对话和问题具有足够的多样性和真实性仍需进一步优化。此外,数据集的构建还面临隐私、成本和准确性等方面的挑战,尤其是在模拟真实人类对话时,如何避免生成偏差和确保数据的可靠性仍需深入研究。
常用场景
经典使用场景
ToMATO数据集主要用于评估大型语言模型(LLMs)在理论心智(Theory of Mind, ToM)任务中的表现。通过模拟角色扮演的LLM之间的对话,ToMATO能够捕捉到第一阶和第二阶的心理状态,如信念、意图、欲望、情感和知识。这些对话通过信息不对称的设计,促使模型生成关于他人心理状态的错误信念,从而全面评估模型在复杂社交情境中的推理能力。
实际应用
ToMATO的实际应用场景包括社交机器人、虚拟助手和心理健康支持系统等。通过评估模型在复杂社交情境中的推理能力,ToMATO可以帮助开发出更具社交智能的AI系统,使其能够更好地理解和回应人类的情感和意图。此外,ToMATO还可用于教育领域,帮助开发能够模拟人类心理状态的智能教学助手,提升学生的学习体验。
衍生相关工作
ToMATO的推出催生了一系列相关研究,尤其是在LLM的ToM能力评估方面。例如,基于ToMATO的研究进一步探索了多模态情境下的ToM推理、多智能体系统中的心理状态推断等。此外,ToMATO的设计理念也启发了其他基准测试的开发,如OpenToM和ToMBench,这些基准测试在ToMATO的基础上进一步扩展了心理状态的评估范围和应用场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作