DialToM

Name: DialToM
Creator: 新加坡管理大学; 澳大利亚国立大学
Published: 2026-04-22 19:07:46
License: 暂无描述

arXiv2026-04-22 更新2026-04-24 收录

下载链接：

https://github.com/Stealth-py/DialToM

下载链接

链接失效反馈

官方服务：

资源简介：

DialToM是由新加坡管理大学和澳大利亚国立大学联合构建的心理理论推理评测基准，基于真实人类对话数据构建并经过人工验证。该数据集包含5943条上下文窗口，覆盖动机访谈、情感支持和说服对话三个领域，每条数据包含6个回顾性推理问题和1个前瞻性预测问题。数据来源于AnnoMI、ESConv和PersuasionForGood三个高质量对话语料库，通过分段和标准化处理确保数据一致性。该数据集旨在评估语言模型从心理状态推断到社会轨迹预测的完整推理链条，特别关注信任维度在复杂社交互动中的作用，为对话系统和社交预测研究提供重要基准。

DialToM is a Theory of Mind reasoning evaluation benchmark jointly developed by the Singapore Management University and the Australian National University, constructed based on real human conversational data and manually validated. This dataset comprises 5,943 context windows, covering three domains: motivational interviewing, emotional support, and persuasive dialogue. Each entry contains six retrospective reasoning questions and one prospective prediction question. The data is sourced from three high-quality conversational corpora: AnnoMI, ESConv, and PersuasionForGood, and processed through segmentation and standardization to ensure data consistency. This dataset aims to evaluate the complete reasoning chain of language models, spanning from mental state inference to social trajectory prediction, with particular focus on the role of the trust dimension in complex social interactions, serving as an important benchmark for research on conversational systems and social prediction.

提供机构：

新加坡管理大学; 澳大利亚国立大学

创建时间：

2026-04-22

原始信息汇总

根据您提供的页面地址和README文件内容，以下是对数据集详情页的总结：

数据集概述

DialToM 是一个用于预测状态驱动对话轨迹的“心智理论”（Theory of Mind）基准数据集，相关论文已投稿至KDD 2026 DnB轨道。

数据集内容

数据文件：位于 data 目录下，包含经人工验证版本的 DialToM 数据集。
反事实数据：位于 counterfactual_data 目录下，包含三个文件，每个数据集对应所有生成的反事实样本，用于反事实消融研究。

基准测试任务

数据集支持以下三种评估任务：

回顾性任务（Retrospective）
- 运行命令：python benchmark.py --model [模型] --task retrospective --filename retrospective.csv
前瞻性任务（Prospective）
- 运行命令：python benchmark.py --model [模型] --task prospective --exp [实验类型] --filename prospective.csv
- 支持四种实验类型：normal（默认基线）、easy（简单集评估）、NOTA 和 CoT（两种消融实验）。
- 输出文件名会根据实验类型动态变为 {filename}_{实验类型}.csv。
书面任务（Written）
- 运行命令：python benchmark.py --model [模型] --task written --filename written.csv

其他研究模块

反事实测试：运行 python counterfactual_test.py --model [模型] --filename counter.csv
记忆性试点研究：运行 python memorization_pilot.py --model [模型] --filename memorize.csv

依赖环境

需要安装以下Python包：

google-genai
openai
sacrebleu
rouge
bert-score

搜集汇总

数据集介绍

构建方式

DialToM数据集的构建以自然主义的人机对话为核心，依托三大高利害对话语料库——动机式访谈、情感支持和说服性对话——提取对话片段。通过自动化的心理状态推理与干扰项生成，将每个语境转化为包含六类心理属性（信念、欲望、意图、情绪、知识、信任）的回溯性推断任务和一个前瞻性诊断预测任务。所有多选题对均经22名专业验证者的人工审核，并采用Dawid-Skene算法聚合标签，同时另由9名众包工作者撰写开放式心理状态推理作为黄金参考，最终形成约36000个回溯性问题和近6000个前瞻性问题的高质量基准。

特点

DialToM的独特之处在于将信任纳入心理状态模型，填补了现有基准中对人际关系中信任维度的空白。其前瞻性诊断探测设计要求模型仅凭孤立的心理状态轮廓预测后续对话轨迹，强制检验心理状态的因果功能性，从而避免模型利用语境中的表层语言捷径。此外，该基准提供人类编写的黄金标准推理作为语义对比基线，支持对LLM生成的推理进行多维度评估，揭示了LLM在心理状态标注与行动预测之间存在的显著能力鸿沟。

使用方法

DialToM提供三种评估任务：回溯性推断任务以多项选择形式要求模型根据对话历史推断接收方的六类心理状态；前瞻性诊断预测任务则隐去对话语境，仅基于心理状态轮廓选出最一致的后续对话轨迹；语义对比任务通过BLEU、ROUGE-L和BERTScore将LLM生成的自由文本推理与人类黄金参考进行相似度比较。研究者可从GitHub仓库获取数据集与评估代码，以零样本方式对目标LLM进行测试，并通过正确率指标量化模型在字面心理理论与功能心理理论上的表现差异。

背景与挑战

背景概述

DialToM是由新加坡管理大学和澳大利亚国立大学的研究团队于2025年提出的心理理论评估基准。该数据集聚焦于大语言模型在自然对话中的心智推理能力，不仅考察模型对信念、欲望、意图、情感、知识和信任等心理状态的推断（字面心理理论），更通过前瞻性诊断预测范式评估模型能否仅依据心理状态剖面预测状态一致的对话轨迹（功能性心理理论）。DialToM基于动机访谈、情感支持和说服性对话三个高风险领域构建，包含约36000个回溯性推理问题和约6000个前瞻性预测问题，并创新性地引入了信任这一心理状态维度。该基准揭示了当前大语言模型在心理状态推理与行动预测之间存在的显著能力不对称现象。

当前挑战

DialToM所应对的核心挑战在于现有心理理论基准无法有效区分模型是真正进行心智推理还是依赖表面语言模式匹配。回溯性任务虽能评估模型对心理状态的标签能力，但无法检验这些状态是否具有驱动后续行为的实用功能。构建过程中面临的困难包括：从自然对话中提取高质量心理状态标注并确保人工验证的一致性，特别是前瞻性预测任务中的干扰项需要与正确答案高度语义相似以测试模型真正推理能力，这导致标注员间一致性较低（Gwet's AC1在0.45-0.68之间）且数据保留率仅约54.3%。此外，实验发现大多数大语言模型在前瞻性任务上表现接近随机水平，仅Gemini 3 Pro展示出稳健的功能性心理理论能力，揭示了当前模型在从心理状态到行动规划这一认知链条上的普遍短板。

常用场景

经典使用场景

DialToM最经典的使用场景在于评估大语言模型在自然化、高风险人际对话中的心智理论推理能力，涵盖两类核心任务：回顾性推理与前瞻性诊断预测。回顾性推理要求模型根据对话历史推断参与者（如求助者）的信念、欲望、意图、情绪、知识及信任状态；前瞻性诊断预测则要求模型在仅获得目标对象完整的心理状态画像（BDIEKT）的前提下，从候选对话片段中识别出与心理状态最一致的未来对话走向。该设计通过去除上下文信息、迫使模型依赖心理状态本身的功能性逻辑进行决策，从而严格检验其是否具备真正的功能性心智理论，而非依赖表层词汇匹配或主题连贯性等虚假关联。

解决学术问题

DialToM解决了现有心智理论基准研究中一个关键但长期被忽视的问题：即当前多数基准仅关注模型对心理状态的回溯推断能力，而未能系统评估其能否将这些推断有效转化为对未来行为的预测。该数据集通过引入前瞻性诊断预测框架，首次清晰区分了字面心智理论（Literal ToM）与功能性心智理论（Functional ToM），揭示了大多数大语言模型在推断心理状态上表现优异，但在利用这些状态预测后续对话轨迹时却严重失败这一显著的推理不对称性。此外，DialToM将信任（Trust）作为新的心理状态维度纳入模型，填补了现有基准在高信任风险交互场景（如心理治疗、说服性对话）中的评估空白，推动了心智理论研究从静态标签识别向动态行为预测的范式跃迁。

衍生相关工作

DialToM的发布催生了一系列具有重要启示的衍生研究工作。其一，基于其前瞻性诊断框架，研究者开始探索如何通过反事实干预与干扰项复杂度操控来更精细地评估语言模型的推理鲁棒性，例如在消融实验中揭示模型在“硬”与“易”两种干扰集下表现的反差，为心智理论评估方法论提供了新思路。其二，DialToM对信任维度的引入激发了后续工作在高风险对话场景中系统建模信任动态的研究，推动了从单一信念推理向多维度社会认知能力的扩展。其三，该数据集提供的黄金标准人类推理参考集，促使学界更加重视人机推理在语义与风格上的对齐分析，推动了多尺度相似度评估在生成式心智理论任务中的应用。这些成果共同促进了心智理论基准从静态、模板化走向动态、自然化与功能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集