Theory of Mind Question Evaluation Benchmark
收藏arXiv2025-03-28 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.22093v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个开放式的理论思维评估基准,名为Theory of Mind Question Evaluation Benchmark,包含30个基于意图类别的图像场景。这些图像从多个平台获取,每个图像都经过严格筛选,确保能够清晰传达意图,并伴有详细描述、视觉线索和未来推理的标注。该数据集旨在评估视觉语言模型在理解人类意图方面的能力,涉及情感和动作两种意图类别,适用于多模态理解和社交智能的研究。
This study constructs an open Theory of Mind evaluation benchmark named Theory of Mind Question Evaluation Benchmark, which includes 30 image scenarios categorized by intent types. These images are sourced from multiple platforms, and each has undergone rigorous screening to ensure it clearly conveys intent, with annotations of detailed descriptions, visual cues and future reasoning. This dataset aims to evaluate the capability of vision-language models in understanding human intentions, covering two intent categories: emotional and behavioral intentions, and is suitable for research on multimodal understanding and social intelligence.
提供机构:
德雷塞尔大学
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
在构建Theory of Mind Question Evaluation Benchmark数据集时,研究团队精心挑选了30个场景,涵盖情感基和行动基两类意图。图像素材来自iStock、Shutterstock等合规平台,确保版权清晰。入选标准强调视觉线索的明确性,包括面部表情、肢体语言等可量化特征。三位作者分别对10幅图像进行三重标注(意图、视觉线索、未来推断),并由第三方评估者验证标注一致性,最终形成具有研究价值的标准化数据集。
特点
该数据集的核心价值在于其开放式问题框架设计,通过三个递进式研究问题系统评估视觉语言模型的心理理论能力:从基础意图识别到视觉线索解析,再到未来情景预测。数据样本覆盖欺凌、作弊等复杂社会场景,能有效检验模型对微妙心理状态的捕捉能力。特别值得注意的是,数据集保留了小模型在错误视觉线索下仍能正确推断意图的有趣现象,为模型认知机制研究提供了独特视角。
使用方法
使用该基准测试时,研究者需按照标准化提示模板输入图像,要求模型依次回答关于人物意图、支撑性视觉线索及未来发展的三个问题。评估采用人工评分机制,根据关键词相关性和准确性进行0-1区间打分,对部分正确响应给予0.5分。重点考察模型在识别宗教服饰、专业制服等上下文敏感元素时的表现差异,同时记录其将审讯场景误判为医院等典型错误案例,为模型改进提供明确方向。
背景与挑战
背景概述
Theory of Mind Question Evaluation Benchmark(ToM-QA)是由Drexel University的Ximing Wen、Mallika Mainali和Anik Sen于2025年提出的开放型心理理论评估基准数据集。该数据集旨在系统评估视觉语言模型(VLMs)在理解人类意图、信念等心理状态方面的能力,填补了多模态推理与社会认知研究之间的空白。研究团队通过构建包含30张标注图像的基准集,考察了模型在情绪基与行为基意图识别、视觉线索提取及未来推理三个维度的表现。该工作首次将开放性问题框架引入心理理论研究,为评估人工智能的社会认知能力提供了标准化工具,对推动具身智能和人类-AI交互研究具有里程碑意义。
当前挑战
该数据集面临的核心挑战体现在两个层面:在领域问题层面,心理理论任务要求模型突破传统视觉问答的局限,从模糊的视觉线索中解构隐含的社会认知信息,这对模型的跨模态推理和情境化理解提出极高要求;在构建层面,研究团队需精确平衡图像场景的复杂性与意图表达的明确性,通过多轮专家标注确保视觉线索(如微表情、肢体语言)与心理状态标注的可靠性。实验结果表明,现有模型在识别作弊、欺凌等复杂社会行为时存在显著缺陷,且容易受到宗教服饰等文化符号的干扰,反映出多模态社会认知建模的深层难点。
常用场景
经典使用场景
Theory of Mind Question Evaluation Benchmark数据集在视觉语言模型(VLMs)的推理能力评估中扮演着关键角色。该数据集通过30幅精心挑选的图像,构建了一个开放式的心理理论(ToM)问题框架,用于测试模型在推断人类意图、信念和心理状态方面的表现。其经典使用场景包括评估模型在复杂社会情境下的理解能力,如识别欺凌、欺骗等微妙意图,以及通过视觉线索预测未来行为。这一场景为研究者提供了标准化工具,用以横向比较不同规模VLMs的认知模拟能力。
实际应用
在医疗辅助诊断、智能教育监控等现实场景中,该数据集指导开发的ToM能力增强模型展现出重要价值。例如,在自闭症儿童社交训练系统中,经过该数据集优化的VLMs能更准确地解读患者表情和肢体语言;在在线教育平台,可识别学生考试作弊的潜在意图。实验证明GPT-4模型在识别关怀、祈祷等正向意图上达到90%准确率,但在作弊意图识别上存在系统性偏差,这为AI伦理设计提供了实证依据。
衍生相关工作
该基准催生了多个延伸研究方向,包括Jin等人(2024)提出的多模态ToM问答框架MMToM-QA,以及Etesam团队(2023)基于其视觉线索标注体系开发的情感推理模型。OpenAI后续发布的GPT-4o-mini直接采用该数据集的评估协议验证模型轻量化效果。Deepseek团队则借鉴其三级评估指标,构建了针对东亚文化场景的ToM测试集CultuMind。这些衍生工作共同推动了机器心智理论研究的范式革新。
以上内容由遇见数据集搜集并总结生成



