HI-TOM

Name: HI-TOM
Creator: 密歇根大学
Published: 2023-10-26 00:41:15
License: 暂无描述

arXiv2023-10-26 更新2024-06-21 收录

下载链接：

https://github.com/ying-hui-he/Hi-ToM_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

HI-TOM数据集是由密歇根大学创建的，用于评估大型语言模型在高级心智理论（ToM）推理能力。该数据集包含300个故事，每个故事涉及多个代理之间的交互，并提出从零阶到四阶的ToM推理问题。数据集通过自动生成故事并手动检查质量，确保了内容的多样性和挑战性。HI-TOM数据集的应用领域包括复杂场景下的有效沟通、情感支持和同理心交流，旨在解决当前大型语言模型在高级ToM推理方面的局限性。

The HI-TOM Dataset, developed by the University of Michigan, is designed to evaluate the advanced Theory of Mind (ToM) reasoning capabilities of Large Language Models (LLMs). This dataset includes 300 stories, each involving interactions between multiple agents, and poses ToM reasoning questions ranging from zero-order to fourth-order levels. The dataset ensures diverse and challenging content through automatic story generation and manual quality inspection. The HI-TOM Dataset has applications in effective communication, emotional support, and empathic interaction in complex scenarios, and aims to address the current limitations of large language models in advanced ToM reasoning.

提供机构：

密歇根大学

创建时间：

2023-10-26

搜集汇总

数据集介绍

构建方式

在心理理论评估领域，HI-TOM数据集的构建采用了基于规则的故事生成方法。该过程通过脚本自动生成多章节叙事，每个故事包含房间、物体、容器和代理等基本元素。生成脚本从预定义的组件池中随机选择元素，并按照特定模板构建情节，其中代理可执行进入房间、移动物体等动作，并可选择性地加入公开或私密通信。为确保逻辑一致性，研究者对生成的故事、问题及选项进行了人工审核，并引入了随机干扰语句以降低模式可预测性。

特点

HI-TOM数据集在心理理论评估领域具有显著特点。作为首个涵盖零阶至四阶心理理论任务的基准，它突破了以往数据集仅限一阶和二阶推理的局限。数据集创新性地引入了代理间的欺骗性通信机制，模拟了复杂社交互动中的信息传递与信任动态。此外，故事平均长度更长，涉及代理和容器数量更多，且正确答案在叙事中的分布更为均衡，有效避免了位置偏差，从而对模型的长文本理解与递归推理能力提出了更高要求。

使用方法

HI-TOM数据集主要用于评估大语言模型的高阶心理理论推理能力。研究者通常在零样本设置下，使用两种提示策略进行测试：一是直接让模型从多项选择中选出答案的朴素提示法；二是要求模型提供逐步推理过程的思维链提示法。评估指标包括标准准确率和联合准确率，后者要求模型对同一故事中从低阶到高阶的所有问题均回答正确，更能反映其递归推理的真实水平。通过分析模型在不同故事长度、通信类型及推理阶数下的表现，可以深入探究模型在复杂心智状态推理中的能力边界与常见错误模式。

背景与挑战

背景概述

HI-TOM数据集由密歇根大学与西湖大学的研究团队于2023年联合创建，旨在系统评估大语言模型在高级心理理论推理方面的能力。心理理论作为认知科学的核心概念，涉及对他人信念与意图的递归推断，是衡量智能体社会认知水平的关键维度。该数据集突破了传统心理理论评测仅关注一阶与二阶推理的局限，首次将评估范围扩展至三阶及四阶高阶推理，通过引入多智能体交互与欺骗性通信机制，构建了包含复杂社会情境的评估基准。其创新性设计为自然语言处理领域提供了首个系统化高阶心理理论评测工具，对推动语言模型的认知推理能力研究具有里程碑意义。

当前挑战

HI-TOM数据集所针对的核心领域挑战在于解决大语言模型在复杂社会认知任务中的高阶心理理论推理能力评估问题。传统心理理论评测多局限于低阶信念推理，难以反映真实社交场景中多层递归推断的复杂性。在构建过程中，研究团队面临多重技术挑战：首先，自动生成脚本需突破原有故事生成范式的限制，确保叙事包含足够信息以支撑高阶问题的提出；其次，需设计包含欺骗性通信的多智能体交互协议，以模拟真实社交中的信息不对称与信念更新动态；此外，还需通过人工校验确保故事逻辑一致性，并平衡正确答案在叙事中的分布以避免位置偏差。这些挑战共同塑造了数据集的科学严谨性与评测效度。

常用场景

经典使用场景

在自然语言处理领域，心智理论（Theory of Mind）评估是衡量智能体社会认知能力的关键范式。HI-TOM数据集通过构建包含零阶至四阶推理任务的故事场景，为大型语言模型的高阶心智理论能力提供了系统化评估基准。其经典使用场景体现在对模型递归推理能力的精细化测试中，研究者通过设计多层嵌套的信念追踪问题，考察模型在复杂社会互动中理解他人心理状态的能力。

衍生相关工作

该数据集的发布催生了系列延伸研究，包括对语言模型系统1与系统2思维模式的深入探讨。后续工作借鉴其评估框架，开发了更贴近真实对话的动态心智理论测试集。同时启发了将符号推理与神经网络结合的新型架构探索，部分研究通过多智能体仿真系统，利用HI-TOM的评估机制观察语言模型在模拟社会情境中的行为涌现现象。

数据集最近研究