ToMBench

arXiv2024-02-23 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.15052v1

下载链接

链接失效反馈

官方服务：

资源简介：

ToMBench是一个系统评估框架，包含8个任务和31种社会认知能力，用于自动化和无偏见地评估大型语言模型的理论思维能力。

ToMBench is a systematic evaluation framework consisting of 8 tasks and 31 social cognitive abilities, designed to evaluate the theory of mind capabilities of large language models (LLMs) in an automated and unbiased manner.

创建时间：

2024-02-23

搜集汇总

数据集介绍

构建方式

在心理认知科学领域，ToMBench的构建遵循严谨的学术范式。研究团队首先系统梳理了心理学文献，确立了8项经典的心智理论评估任务，并基于ATOMS框架进一步细化为31项核心认知能力。为确保数据的原创性与避免污染，所有测试样本均由经过专业心理学培训的研究人员手工创建，灵感来源于日常社交场景，最终形成了包含2860个双语多项选择题的完整语料库。构建过程中实施了严格的双轮验证机制，最终达成99.4%的标注一致性，从而保证了数据的高质量与可靠性。

特点

该数据集的核心特征体现在其系统性、自动化与原创性三个维度。系统性方面，ToMBench通过8项任务与31项能力的双层架构，全面覆盖了心智理论的社会认知范畴，超越了以往研究的局限。自动化评估则得益于其多项选择题格式，有效避免了主观评分带来的偏差与高昂成本，实现了高效、客观的性能度量。尤为重要的是，所有测试样本均为从头构建的双语原创内容，严格杜绝了训练数据泄漏的风险，为评估大语言模型的真实心智理论能力提供了纯净的测试环境。

使用方法

使用ToMBench进行评估时，研究者可从任务与能力两个视角灵活切入。数据集以故事、问题与选项构成的标准多项选择题形式呈现，支持直接提示与思维链提示两种主流评估范式。评估过程完全自动化，模型仅需输出选项序号即可完成答题，系统将据此计算其在各项任务与能力上的准确率。这种设计不仅便于快速批量测试不同的大语言模型，还能通过对比中英文版本的表现，深入探究语言与文化背景对模型心智理论能力的影响，为相关研究提供了高效且可靠的基准平台。

背景与挑战

背景概述

ToMBench是由清华大学CoAI研究组于2024年提出的首个系统性心智理论（Theory of Mind, ToM）评测基准。该数据集旨在解决当前大语言模型（LLMs）在心智能力评估中存在的评估范围局限、主观判断偏差及数据泄露风险三大核心问题。研究团队基于心理学经典文献，构建了涵盖8类社会认知任务和31项核心心智能力的双层评估框架，并首创了包含2860个双语多选问题的全新测试库。ToMBench的建立为大语言模型的社会智能发展提供了标准化、自动化且无偏见的评估工具，推动了人工智能在理解人类心理状态这一前沿领域的深入研究。

当前挑战

ToMBench所针对的领域挑战在于全面、客观地评估大语言模型是否具备人类级别的心智理论能力，即理解并推断自我及他人心理状态（如信念、意图、情绪等）的认知能力。具体构建挑战包括：其一，需系统整合心理学中分散的评估任务与能力维度，构建覆盖情绪、欲望、意图、知识、信念及非字面沟通六大范畴的完整体系；其二，为避免现有心理学量表在模型训练中可能产生的数据污染，必须从零开始人工构建全新的测试样本，并设计高质量误导选项以保证评估严谨性；其三，需实现自动化、无偏见的评估流程，通过多选问题格式取代传统开放式回答的人工评分，以提升评测效率与一致性。

常用场景

经典使用场景

在认知科学与人工智能交叉领域，ToMBench作为首个系统化心智理论基准，其经典使用场景聚焦于评估大型语言模型在复杂社会情境中的心智推理能力。该数据集通过精心设计的八项经典心理学任务，如错误信念测试与模糊故事任务，模拟真实人际互动中的认知挑战，为研究者提供了标准化、自动化的评估工具，用以检验模型是否能够像人类一样推断他人的信念、意图与情感状态。

解决学术问题

ToMBench有效解决了心智理论研究中的三大核心问题：评估范围碎片化、主观评判偏差及数据污染风险。通过构建覆盖六维认知能力与三十一项具体技能的体系，该数据集实现了对心智理论的多维度系统性测量；采用选择题形式避免了人工评分的不一致性；完全原创的双语语料则杜绝了训练数据泄露导致的性能虚高。这为客观量化语言模型的社会认知水平奠定了方法论基础，推动了心智计算建模领域的科学化进程。

衍生相关工作

基于ToMBench的评估范式，学界衍生出多项深入探索语言模型心智能力的研究工作。例如，研究者通过该基准发现了GPT-4在连贯故事理解任务中与人类存在的系统性差距，进而开发了针对二阶信念推理的增强测试方法。同时，其揭示的模型在知识-假装游戏关联任务上的薄弱表现，催生了针对认知架构缺陷的改进算法研究。这些工作共同构成了从评估到改进的完整研究链条，推动了心智理论在人工智能领域的理论发展与实践创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集