CoMMET

Name: CoMMET
Creator: 新加坡科技研究局·高性能计算研究所; 新加坡科技研究局·前沿人工智能研究中心; 南洋理工大学; 香港科技大学·广州
Published: 2026-03-12 21:29:42
License: 暂无描述

arXiv2026-03-12 更新2026-03-14 收录

下载链接：

https://osf.io/g5zpv/

下载链接

链接失效反馈

官方服务：

资源简介：

CoMMET是由新加坡科技研究局牵头构建的多模态心理理论评估基准数据集，包含591个故事化交互单元（StoryTurns），涵盖欲望、信念、道德推理等7类心理状态。该数据集基于心理学经典ToM手册任务扩展而成，通过1973个问答对和826张配图构建多轮对话场景，采用Gemini 3.0 Pro生成初始数据并经人工校验。作为首个支持多轮交互式评估的基准，其核心价值在于全面测试大语言模型在真实社交场景中的心智推理能力，推动可信人机交互系统发展。

CoMMET is a multimodal Theory of Mind (ToM) evaluation benchmark dataset developed under the leadership of the Agency for Science, Technology and Research (A*STAR), Singapore. It consists of 591 story-based interaction units (StoryTurns), covering 7 categories of mental states including desire, belief, moral reasoning and others. Derived from classic psychological ToM manual tasks, this dataset constructs multi-turn dialogue scenarios through 1973 question-answer pairs and 826 paired images. The initial data was generated using Gemini 3.0 Pro and subsequently manually verified. As the first benchmark supporting multi-turn interactive evaluation, its core value lies in comprehensively testing the mental reasoning abilities of large language models (LLMs) in real-world social scenarios, and promoting the development of trustworthy human-computer interaction systems.

提供机构：

新加坡科技研究局·高性能计算研究所; 新加坡科技研究局·前沿人工智能研究中心; 南洋理工大学; 香港科技大学·广州

创建时间：

2026-03-12

搜集汇总

数据集介绍

构建方式

在心理理论评估领域，CoMMET数据集的构建借鉴了经典的心理理论手册任务框架，旨在系统评估大语言模型的多模态推理能力。该数据集通过大语言模型辅助生成，采用单样本学习策略，以原始手册任务中的示例为蓝本，自动生成多轮对话格式的StoryTurn条目。生成过程涵盖了文本叙述与对应插图，随后研究团队对生成内容进行了严格的人工审核与修正，确保叙事逻辑的连贯性、图像与文本的一致性以及任务分类的准确性，最终形成了包含591个StoryTurn、1973个问题及826张图像的高质量多模态基准。

特点

CoMMET数据集的核心特点在于其全面的心理状态覆盖与创新的多轮评估机制。该数据集依据ATOMS分类体系，系统纳入了欲望、信念、情感、知识、意图、感知及非字面沟通等七类心理状态，并额外引入了基于真假信念的道德推理任务，突破了以往基准多局限于信念推理的局限。其独创的StoryTurn格式将叙事拆解为多轮对话，在每一轮中根据模型先前回答的正确性提供适应性反馈，模拟了真实交互中动态调整的测试环境，从而能够更细致地探查模型在连续推理情境下的社会认知能力。

使用方法

该数据集主要用于评估大语言模型在心理理论任务上的表现。研究者可将CoMMET中的StoryTurn作为输入，以多轮对话的形式依次向模型呈现故事片段、对应图像（若存在）及问题，并可根据模型上一轮的回答提供预设的反馈提示。评估通常采用故事级准确率作为核心指标，即要求模型在一个StoryTurn的所有轮次中均给出正确答案方计为通过。这种开放式问答与多轮交互结合的评估方式，能够深入检验模型对复杂心理状态的理解深度、在多模态语境下的推理鲁棒性，以及其在接近真实场景的渐进式叙事中维持连贯社会认知的能力。

背景与挑战

背景概述

心智理论作为人类社会智能的基石，其评估在大型语言模型日益普及的背景下显得尤为重要。CoMMET数据集由新加坡科技研究局高性能计算研究所、南洋理工大学及香港科技大学（广州）的研究团队于2026年共同创建，旨在构建一个多模态、多轮对话的综合性评估基准。该数据集以心理学经典的心智理论手册任务为灵感，扩展了传统评估范围，不仅涵盖信念、欲望、情绪等多种心理状态，还引入了道德推理任务，致力于系统检验大型语言模型在复杂社会认知任务中的真实能力。CoMMET的提出填补了现有基准在模态单一、任务狭窄及交互性不足方面的空白，为深入理解模型的社会推理机制提供了重要工具。

当前挑战

CoMMET数据集致力于解决心智理论评估领域的核心挑战，即如何全面、真实地衡量大型语言模型对多元心理状态的理解与推理能力。传统基准多局限于文本输入与单一信念任务，难以反映现实交互中动态、多模态的认知过程。在构建过程中，研究团队面临多重技术难题：多轮故事对话的结构化表示需精确设计反馈逻辑与分支答案；图像生成常出现空间关系错误、角色重复及叙事不一致等问题，需经人工反复校验与修正；开放性问题答案的评估依赖大型语言模型作为评判者，其判断误差需通过手动验证以保障可靠性。这些挑战凸显了构建高质量、可扩展心智理论评估基准的复杂性。

常用场景

经典使用场景

在认知科学与人工智能交叉领域，心智理论能力评估一直是衡量智能体社会认知水平的核心议题。CoMMET数据集作为首个多模态、多轮对话式的心智理论基准，其经典使用场景在于系统性地评估大型语言模型对多样化心理状态的推理能力。该数据集通过故事驱动的多轮对话形式，模拟真实社交互动中逐步展开的叙事，要求模型在连续对话回合中追踪角色信念、欲望、情绪等心理状态的动态变化，并回答开放式问题。这种评估方式超越了传统单轮问答的局限，为考察模型是否具备连贯的社会情境理解能力提供了精细化的测试框架。

衍生相关工作

CoMMET数据集的构建理念与方法衍生并连接了多个相关领域的经典工作。其核心继承自心理学经典的“心智理论手册任务”，将该评估范式系统性地迁移至人工智能领域。同时，它与ATOMS心理状态分类体系紧密结合，为多维度评估建立了理论框架。在技术方法上，其提出的StoryTurn多轮评估格式，为后续交互式基准设计提供了新范式。该数据集也与ToMBench、MOMENTS等近期涵盖多心理状态的基准形成对比与补充，特别是在开放答案格式、道德推理任务及对话式评估方面的创新，共同推动了心智理论评估研究向更自然、更严谨的方向演进。

数据集最近研究