CausalToM

Name: CausalToM
Creator: Northeastern University, Technion, MIT CSAIL, Pr(Ai)2R Group
Published: 2025-05-21 01:59:45
License: 暂无描述

arXiv2025-05-21 更新2025-05-22 收录

下载链接：

https://belief.baulab.info

下载链接

链接失效反馈

官方服务：

资源简介：

CausalToM数据集由Northeastern University、Technion、MIT CSAIL和Pr(Ai)2R Group创建，包含简单故事，涉及两个角色，每个角色分别改变两个对象的状态，可能不知道彼此的行动。数据集用于分析Llama-3-70B-Instruct模型对角色信念的推理能力。数据集提供了对语言模型内部计算机制的理解，以及执行复杂逻辑推理的普遍机制。

The CausalToM dataset was created by Northeastern University, Technion, MIT CSAIL, and the Pr(Ai)2R Group. It contains simple stories involving two characters, each of whom alters the state of two objects, and they may be unaware of each other's actions. This dataset is used to analyze the reasoning ability of the Llama-3-70B-Instruct model regarding characters' beliefs. It provides insights into the internal computational mechanisms of language models and the universal mechanisms underlying complex logical reasoning.

提供机构：

Northeastern University, Technion, MIT CSAIL, Pr(Ai)2R Group

创建时间：

2025-05-21

原始信息汇总

数据集概述：Language Models use Lookbacks to Track Beliefs

数据集基本信息

数据集名称: CausalToM
研究主题: 语言模型(LMs)如何跟踪角色信念的机制
研究机构: 东北大学、Technion - IIT、MIT CSAIL、Pr(Ai)²R Group
研究状态: Under Review

数据集背景

研究问题: 语言模型是否真正学会表示和跟踪心理状态(ToM)，还是仅利用表面统计模式
现有局限: 现有ToM评估数据集仅适用于行为测试，缺乏因果分析所需的反事实对

CausalToM数据集特点

结构: 包含简单故事，每个故事涉及两个角色与不同对象的交互
评估场景:
1. 无可见性: 角色彼此不知对方行为
2. 显式可见性: 明确提供角色能否观察对方行为的信息
研究对象: Llama-3-70B-Instruct模型

关键机制：Lookback Mechanism

定义: 通过注意力将源信息复制到召回令牌和回溯令牌的残差流中
三种核心机制:
1. Binding Lookback: 识别正确的状态令牌引用信息(Ordering ID)
2. Answer Lookback: 使用状态OID检索答案状态令牌值
3. Visibility Lookback: 整合被观察角色信息(需显式可见条件)

无可见性下的信念跟踪

Ordering ID分配: 为关键令牌分配顺序ID(OID)，指示出现顺序
Binding Lookback流程:
- 字符和对象OID作为源信息
- 地址副本存入状态令牌残差流
- 指针副本移至最终令牌残差流
Answer Lookback流程:
- 状态OID作为源信息
- 地址副本存入状态令牌残差流
- 指针副本通过binding lookback移至最终令牌

可见性条件的影响

Visibility Lookback机制:
- 生成Visibility ID作为源信息
- 地址副本保留在可见性句子残差流
- 指针副本转移至问题令牌残差流
- 通过QK-circuit整合被观察角色信息

相关研究

Fine-Tuning Enhances Existing Mechanisms (ICLR 2024)
- 发现LLM使用基于位置的引用信息进行实体跟踪
- 识别类似Answer lookback的子机制
Representational Analysis of Binding in Language Models (EMNLP 2024)
Finding Alignments Between Interpretable Causal Variables... (CLeaR 2024)
- 提出DAS方法寻找高低层因果模型对齐
Discovering Variable Binding Circuitry with Desiderata (ICML 2023 Workshop)
- 提出DCM方法定位Llama-13B中的变量绑定组件

搜集汇总

数据集介绍

构建方式

CausalToM数据集的构建基于一系列精心设计的简单故事，每个故事涉及两个角色分别与两个对象互动并改变其状态。研究者通过控制角色间的可见性（无可见性与明确可见性）来探讨语言模型如何表征和更新角色的信念。数据集包含结构化故事模板，每个模板允许四种不同类型的问题，涵盖了103个角色、21个对象和23种状态。通过因果中介分析和抽象方法，研究者验证了模型内部的计算机制，从而构建了这一具有因果分析价值的数据集。

使用方法

使用CausalToM数据集时，研究者可通过两种主要设置评估语言模型的信念跟踪能力：无可见性场景和明确可见性场景。在无可见性场景中，模型需要跟踪互不知晓对方行为的角色的信念；而在明确可见性场景中，模型需处理角色间观察关系的文本描述。典型使用流程包括：首先呈现包含角色互动和可见性条件的故事，随后提出关于特定角色信念的问题，最后分析模型的回答及其内部激活模式。通过因果抽象和干预技术，研究者可验证假设的高层因果模型与语言模型内部计算的对应关系，从而揭示信念跟踪的算法模式。

背景与挑战

背景概述

CausalToM数据集由Nikhil Prakash等研究人员于2025年创建，旨在探究语言模型（LMs）如何表征和推理角色的信念，这是心智理论（Theory of Mind, ToM）的核心要素。该数据集由一系列简单故事组成，涉及两个角色分别改变两个对象的状态，可能彼此不知情。通过分析Llama-3-70B-Instruct模型在这些故事上的表现，研究人员发现了一种称为“回溯机制”的算法模式，该机制使模型能够在必要时召回关键信息。CausalToM的构建填补了现有ToM评估数据集的空白，为理解LMs的内部推理机制提供了新的视角，并推动了相关领域的研究。

当前挑战

CausalToM数据集面临的挑战主要包括两方面：1) 领域问题的挑战，即如何准确评估语言模型在ToM任务中的表现，尤其是在角色信念与现实不一致时的推理能力；2) 构建过程中的挑战，包括设计具有足够反事实对的故事以支持因果分析，以及确保数据集的多样性和复杂性足以涵盖不同的ToM推理场景。此外，数据集的构建还需要克服语言模型在长程依赖和上下文理解方面的局限性，以确保其能够有效捕捉和评估模型的ToM能力。

常用场景

经典使用场景

CausalToM数据集在语言模型（LM）的思维理论（ToM）能力研究中扮演了核心角色。该数据集通过构建包含两个角色的简单故事场景，每个角色独立改变两个对象的状态，可能彼此不知晓对方的行动，从而测试LM如何表征和更新角色的信念。这一设计使得研究者能够深入分析LM内部机制，特别是通过因果干预和抽象方法，揭示LM如何利用“回溯机制”来跟踪和检索关键信息。

解决学术问题

CausalToM数据集解决了语言模型在思维理论任务中的内部机制不透明问题。通过系统化的故事设计和因果分析，该数据集帮助研究者识别了LM中用于信念跟踪的三种关键回溯机制：绑定回溯、答案回溯和可见性回溯。这些发现不仅揭示了LM如何通过排序ID（OI）和低秩子空间编码信息，还为理解LM如何执行复杂逻辑推理提供了算法基础，填补了行为评估与内部计算机制之间的知识空白。

实际应用

在实际应用中，CausalToM数据集为开发具有社会认知能力的AI系统提供了重要基准。其揭示的回溯机制可应用于需要持续跟踪多实体状态的场景，如对话系统中用户意图的持久化建模、虚拟角色互动中的信念更新，以及需要处理部分可观察信息的决策系统。此外，该数据集构建范式对设计其他因果分析导向的认知评估工具具有方法论指导意义。

数据集最近研究