omnitom-benchmark-review

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/omnitom/omnitom-benchmark-review

下载链接

链接失效反馈

官方服务：

资源简介：

OmniToM 是一个用于评估语言模型心理理论（Theory of Mind）能力的基准数据集，通过显式的信念结构建模来实现。每个样本包含一个简短的英文故事及其相关的信念结构，包括以行为者为中心的信念命题、`world` 行为者表示叙述者/世界事实，以及每个信念的七维模式标签向量。数据集支持信念提取和信念标注两个任务，包含 895 个故事、22,343 个标注的信念命题和 156,401 个总模式标签。数据格式为 JSON，适用于零样本信念提取、零样本信念标注、语义判断评估等任务，但不适合作为现实世界社交智能的直接测量或安全认证基准。

OmniToM is a benchmark dataset for evaluating Theory of Mind capabilities in language models, achieved through explicit belief structure modeling. Each sample includes a short English story and its associated belief structures, consisting of actor-centric belief propositions, a reserved `world` actor representing narrator/world facts, and a seven-dimensional mode label vector for each belief. The dataset supports two related tasks: belief extraction and belief annotation, containing 895 stories, 22,343 annotated belief propositions, and 156,401 total mode labels. The data is in JSON format and is suitable for tasks such as zero-shot belief extraction, zero-shot belief annotation, and semantic judgment evaluation, but is not suitable as a direct measure of real-world social intelligence or a safety certification benchmark.

创建时间：

2026-04-22

原始信息汇总

OmniToM 数据集详情

数据集概述

OmniToM 是一个用于评估语言模型**心智理论（Theory of Mind）**能力的基准测试数据集，其核心创新在于通过显式的信念结构建模来评估模型，而非仅关注对社交推理问题的最终答案评分。

数据集规模

故事总数：895 个（单一基准集，在 Hugging Face 上标记为 train 分割）
标注信念命题数：22,343 条
总标注标签数：156,401 个

数据构成

数据实例结构

每条数据为一个 JSON 对象，包含以下字段：

字段	说明
`story_id`	故事唯一整数标识符
`story_category`	故事类别（共7类）
`story`	原始英文故事文本
`beliefs`	标注的信念命题列表

每个信念命题包含：

actor：信念持有者（保留 world 作为叙述者/世界事实的特殊角色）
belief：最小命题化信念陈述
labels：七个维度的模式标签向量

标签维度说明

维度	取值范围
`order`	递归层级 {0, 1, 2, 3}
`truth_status`	True, False, Unknown
`knowledge_access`	Private, Shared, Public
`representation`	Explicit, Implicit
`content_type`	Location, Contents/Physical State, Identity/Relation, Epistemic, Desire/Intention, Emotion, Trait/Value, Action/Event
`mental_source`	Narration, Perception, Memory, Testimony, Inference, Imagination, Unknown
`context`	Neutral, Temporal, Deceptive, Counterfactual

数据来源与创建

故事来源

故事文本源自 ToMBench 数据集，从中保留了7个故事类别：

Ambiguous Story Task（歧义故事任务）
False Belief Task（错误信念任务）
Faux-pas Recognition Test（失礼识别测试）
Hinting Task Test（暗示任务测试）
Persuasion Story Task（说服故事任务）
Scalar Implicature Test（标量含义测试）
Strange Story Task（奇怪故事任务）

标注流程

采用人工校准的LLM辅助标注管道：

原始语料：1,383 个故事
源过滤后保留：916 个故事
最终发布：895 个故事
人工-LLM一致性（阶段1专家重叠验证）：83.72%
严格全标注者精确匹配标签可靠性：92.23%
人工-人工一致性（语义对齐验证集）：88.86%
选定语义判断器的人工一致性：72.03%

支持的任务

信念提取（Belief Extraction）
- 输入故事，输出 (Actor, Belief, Order) 元组的信念结构
信念标注（Belief Labeling）
- 输入故事和信念元组，沿七个闭集模式维度为每条信念进行标注

适用场景

直接用途

零样本信念提取
零样本信念标注
基于语义判断器评估提取信念表
多角色和高阶心智推理分析
过程敏感型评估（超越端点问答）

不适用范围

现实世界社交智能的直接衡量
具身、交互或多模态社交推理
已部署系统的安全认证基准
临床、教育或心理评估工具

语言与许可

语言：英语（English）
许可证：MIT License

引用格式

bibtex @misc{omnitom2026, title={OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling}, author={Anonymous Authors}, year={2026}, note={Anonymous review release} }

搜集汇总

数据集介绍

构建方式

OmniToM基准数据集旨在突破传统心理理论评测仅关注终端问答准确率的局限，转而聚焦于语言模型在故事理解过程中是否构建连贯的信念表征。该数据集基于ToMBench语料库，从中筛选出七个故事类别，确保每个故事均能为信念提取提供充分的心理状态证据。数据标注采用人工校准与大语言模型辅助相结合的流水线，最终发布895个故事及22,343条标注信念命题，共计156,401个模式标签。标注过程经过专家重叠验证与严格全标注者精确匹配检验，分别达到83.72%与92.23%的信度，并辅以人类评判一致性验证。

特点

OmniToM的核心特色在于其显式的信念结构建模框架，每个故事均配有一组以角色为中心的信念命题，并引入保留的'world'角色用于叙述者与世界事实。每一条信念均附带七维模式标签向量，涵盖阶次、真值状态、知识获取方式、表征形式、内容类型、心理来源及上下文语境，实现了对心智状态表征的细粒度分析。基准支持信念提取与信念标注两项关联任务，前者从故事中抽取信念结构，后者则为信念添加多维标签，共同构成对模型心理理论推理过程敏感的诊断工具。

使用方法

OmniToM适用于零样本信念提取与标注任务，亦可用于基于语义评判器的提取结果评估。使用者可直接加载Hugging Face数据集，每行数据为JSON对象，包含故事ID、类别、原文及信念列表。信念列表中的每个元素记录信念持有者、命题陈述和七维标签。基准分片命名为'train'，实际为评测集，共895个故事。评估时，模型需从故事文本中提取信念结构并输出对应标签，或由语义评判器计算提取F1分数，从而衡量模型在显式信念建模上的表现。

背景与挑战

背景概述

心智理论（Theory of Mind, ToM）是智能体推断他人信念、意图与知识状态的核心认知能力，在社交互动与自然语言理解中至关重要。然而，现有的大语言模型（LLM）心智理论评估基准多聚焦于最终答案的正确性，忽视了模型在推理过程中是否构建了连贯的信念表示。为弥合这一鸿沟，匿名研究团队于2026年提出了OmniToM基准，该基准基于ToMBench中的短篇故事，通过显式的信念结构建模来评估模型的心智理论能力。每个故事均配有多维度的信念标注，支持信念提取与信念标注两项任务。OmniToM的出现，为诊断LLM在复杂社交推理中的过程性表现提供了全新工具，对推动认知模型与AI对齐研究具有重要影响力。

当前挑战

OmniToM所解决的领域核心挑战在于，传统端点问答式评估无法揭示LLM在推理过程中是否真正理解了不同角色的信念结构，导致模型可能通过表面模式匹配而非真正的心智推理来回答问题。构建过程中，团队面临多重困难：首先，需从1,383个原始故事中筛选出仅靠文本即可提供充分心理状态证据的916个故事，最终保留895个；其次，依赖人类校准的LLM辅助标注流程，需确保22,343条信念命题与156,401个模式标签的可靠性，尽管专家重叠验证达83.72%，但人类与语义判断器的一致性仅为72.03%，反映出复杂社会情境中标注的主观性与评估近似性。此外，基准限于短篇文本与最高三阶递归信念，无法涵盖交互式、具身或多模态社交推理场景，也未能对长程信息追踪或深层嵌套心理状态进行压力测试。

常用场景

经典使用场景

OmniToM作为心智理论（Theory of Mind, ToM）评估基准，其经典使用场景在于通过显式信念结构建模，系统性地评测语言模型在多智能体社会推理中的认知能力。研究者借助该数据集，要求模型从短篇英文故事中提取以角色为中心的信念命题，并依据七维模式标签（如信念阶次、真值状态、知识获取方式等）对其进行分类标注。这一过程超越了传统端点问答的评估范式，转而聚焦模型在叙事理解过程中是否能够构建连贯的信念表征，从而为诊断模型在多层级、多参与者心智状态推理中的表现提供了精密的分析工具。

实际应用

在实际应用层面，OmniToM可被部署于需要细粒度心智状态建模的AI系统中，例如社交机器人、教育辅导助手以及人机协作界面，这些系统必须准确推断用户的信念、意图或误解才能实现有效交互。此外，该基准也可用于检测模型在生成或解释涉及多重信念、欺骗或反事实情境的内容时的可靠性，从而辅助开发更安全、更符合社会常理的对话系统。其显式信念标注模式还为调试和优化语言模型的多轮推理能力提供了具体的诊断路径。

衍生相关工作

OmniToM的发布催生了一系列后续研究，例如基于其七维模式标签设计专用语义评判器以近似人工对齐的提取评估方法，以及利用该基准训练更擅长信念结构建模的专门化模型。相关工作还包括跨心智理论范式的迁移学习实验，探究在OmniToM上表现优异的模型是否在ToMBench等其他社交推理基准中展现泛化能力。此外，研究者已开始将该数据集的信念提取任务拓展至多模态场景，或结合因果推理框架来深化对高阶信念追踪的理解，从而进一步扩展显式心智状态建模在AI认知架构中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集