PureToMDatasets

Hugging Face2026-05-17 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/TomTraining/PureToMDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专门用于评估心理理论（Theory of Mind, ToM）能力的多配置基准测试集合，包含七个独立的子数据集配置：BigToM、EmoBench、FanToM、HiToM、SimpleToM、SocialIQA和ToMBench。所有配置仅提供测试分割，总计约25,000个评估样本。每个数据样本采用统一的结构化格式，包含四个核心字段：故事叙述（story）、相关问题（question）、答案选项（answer）和元数据（meta）。其中answer字段进一步细分为正确答案列表（correct_answers）和错误答案列表（wrong_answers），支持多项选择或开放生成式评估。meta字段包含丰富的标注信息，如样本ID、问题类型、能力维度、语言类别、难度级别等细粒度属性，具体字段因配置而异。数据集覆盖心理理论的多个评估维度，包括情感理解、社交推理、信念推断等认知能力，适用于大型语言模型和心理理论计算模型的系统性评估与基准测试。数据集采用Apache 2.0开源许可证。

This dataset is a multi-configuration benchmark collection specifically designed to evaluate Theory of Mind (ToM) capabilities, comprising seven independent sub-dataset configurations: BigToM, EmoBench, FanToM, HiToM, SimpleToM, SocialIQA, and ToMBench. All configurations provide only test splits, totaling approximately 25,000 evaluation samples. Each data sample follows a unified structured format with four core fields: story narrative (story), related question (question), answer options (answer), and metadata (meta). The answer field is further subdivided into correct answers list (correct_answers) and wrong answers list (wrong_answers), supporting multiple-choice or open-ended generative evaluation. The meta field contains rich annotation information, such as sample ID, question type, capability dimension, language category, difficulty level, and other fine-grained attributes, with specific fields varying by configuration. The dataset covers multiple evaluation dimensions of Theory of Mind, including emotional understanding, social reasoning, belief inference, and other cognitive abilities, making it suitable for systematic evaluation and benchmarking of large language models and computational models of Theory of Mind. The dataset is licensed under Apache 2.0.

创建时间：

2026-05-17

搜集汇总

数据集介绍

构建方式

PureToMDatasets是一个专为评估机器心智理论（Theory of Mind）能力而整合的多维度基准数据集集合。该数据集由七个各具特色的子集构成，包括BigToM、EmoBench、FanToM、HiToM、SimpleToM、SocialIQA及ToMBench，每个子集均以测试集形式提供。这些子集源自不同的研究场景，覆盖了从基础心理状态推理到复杂社交情绪理解、多层级叙事分析及跨语言心智理论测试等多个层面。每个样本包含故事文本、对应问题、正确答案与错误答案列表，以及丰富的元数据字段，如条件类型、子集归属、维度标签或难度等级，为评估模型在不同心智理论维度上的表现提供了标准化的结构。数据以Apache-2.0许可协议发布，确保了广泛的可获取性与研究再用的自由度。

使用方法

使用PureToMDatasets时，研究者可通过HuggingFace Datasets库便捷加载。每个子集对应一个独立的配置名称（config_name），如'BigToM'或'EmoBench'，通过指定配置名称即可获取对应测试数据。数据以统一的特征结构呈现：'story'字段提供叙事上下文，'question'为待回答的查询，'answer'字段内嵌correct_answers与wrong_answers用于评估模型预测的准确性。元数据（meta）则包含任务相关的辅助信息，如维度、难度或语言标识，适用于细粒度的性能分析。鉴于所有数据均为测试集且已分割完成，研究者可直接用于零样本评估或作为下游任务测试基准。数据加载后，建议利用元数据中的分类标签对结果进行分组分析，以洞察模型在不同心智理论子能力上的优势与局限。

背景与挑战

背景概述

PureToMDatasets是一个汇集了多个心理理论（Theory of Mind, ToM）推理基准测试的综合性数据集，旨在评估和推动人工智能模型在社会认知理解方面的发展。该数据集由多个子集构成，包括BigToM、EmoBench、FanToM、HiToM、SimpleToM、SocialIQA和ToMBench，覆盖了从基础信念推理到复杂情感理解与多维度社会交互推理的广泛能力。这些子集大多源自近年来（如2023-2024年）由不同研究团队构建的公开基准，例如SocialIQA源于常识推理领域，而ToMBench则专注于对大型语言模型的心理理论能力进行系统性评测。PureToMDatasets的核心研究问题是：如何统一且全面地评估人工智能系统在理解他人信念、意图、情感及社会行为等方面的能力。该数据集的出现，为比较不同模型在心理理论推理中的表现提供了标准化平台，对认知科学、人工智能及社会机器人等交叉领域产生了深远影响。

当前挑战

PureToMDatasets所应对的领域挑战在于，现有的人工智能模型虽然在语言生成与理解方面取得了显著进展，但在真正理解他人心理状态、进行社会常识推理方面仍显稚嫩。心理理论推理能力是智能体实现有效人机交互与协作的关键，但长期以来缺乏系统、多维度且规模适中的评估基准。具体构建过程中，挑战体现在以下几个方面：首先，各子集数据来源分散，任务设计各异（如情感推理、信念等级、社会常识等），需要统一的数据格式与评估框架，确保数据的兼容性与可对比性；其次，部分子集如FanToM和HiToM包含复杂的叙述性故事与多层次问题，人工标注成本高且需要严格的认知科学指导，以保证答案的准确性与一致性；此外，在平衡各子集数据规模、难度分布以及防止训练数据泄露等问题上，也需要精心设计，从而确保评测结果的公正性与有效性。

常用场景

经典使用场景

PureToMDatasets是一个整合了多个子数据集（如BigToM、FanToM、HiToM、SimpleToM、SocialIQA、ToMBench及EmoBench）的大规模心理理论评估基准集合。在心智理论与认知科学研究领域，该数据集最经典的用法是作为衡量与诊断大语言模型及人工智能系统是否具备类人‘心理理论’能力的标准化测试平台。通过将故事叙述与多维度的心理状态推理问题（如信念、意图、情感理解）相结合，研究者可以利用其中的测试样本系统性地评估模型从零阶心理理论（仅模拟事实）到高阶心理理论（嵌套递归的信念推理）的推理表现，从而精准定位模型在理解他人心理状态上的能力边界。

解决学术问题

该数据集解决了学术界长期以来缺乏统一且全面的心理理论评估基准这一关键难题。过往研究者常使用零星、格式不一的单一数据集进行测试，导致不同模型间的结果难以横向比较。PureToMDatasets通过构建涵盖简单事实推理（SimpleToM）、社会常识推理（SocialIQA）、情感认知（EmoBench）、错误信念推理（BigToM、FanToM、HiToM）以及综合能力评测（ToMBench）的多维度任务体系，首次实现了对机器心理理论能力的规范化、细粒度测评。这一系统为探索符号推理与连接主义模型在认知模拟中的短板提供了严谨的分析框架，极大地推动了心智理论在自然语言处理与认知科学交叉领域的研究进展。

实际应用

在实际应用层面，PureToMDatasets为构建更具社会智能的人机交互系统提供了关键的数据支撑。例如，通过利用FanToM子集中的复杂社会情境故事，可以训练与测试对话代理是否能够正确推断用户的潜在意图与隐性知识状态，从而在客服、教育辅导或医疗咨询等场景中做出更贴切、共情的响应。EmoBench则有助于开发情感感知算法，使陪伴型机器人或虚拟助手能通过用户的语言描述解析其情绪动态，调整交互策略。在安防与自动驾驶领域，基于该数据集改进的心理理论模型可帮助系统预测他车驾驶员的决策行为，提升路况中的协作与避险能力。

数据集最近研究