Hard_ToMDatasets

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/TomTraining/Hard_ToMDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多配置的评估基准集合，专注于心理理论（Theory of Mind）与社会推理能力的测评。数据集包含八个子配置：BigToM、EmoBench、ExploreToM、FanToM、HiToM、SimpleToM、SocialIQA 和 ToMBench，总计提供超过20,000个样本。每个样本均围绕叙事性场景构建，核心数据结构包括：故事背景（Story）、涉及人类状态（如信念、偏好、情绪）与环境状态（如位置、物体、变化）的详细描述（State）、角色行动（Action）、基于故事提出的问题（Question），以及包含正确答案和错误答案选项的答案对（Answer）。此外，每个样本附有丰富的元数据（Meta），涵盖样本ID、数据来源、评估维度（dimension）、任务类型（task_type）、难度等级（difficulty）、伦理类别（ethics_category）等属性，支持多维度能力评估。部分子集（如BigToM、EmoBench、SimpleToM、SocialIQA）还提供了由GPT-5.5生成的合成数据（synthetic_gpt_5_5），可用于数据增强或对比研究。该数据集适用于训练和评估人工智能模型在理解复杂社会情境、推断他人心理状态、进行因果推理以及回答基于叙事的问答任务等方面的能力。

This dataset is a multi-configuration evaluation benchmark collection focused on assessing Theory of Mind and social reasoning capabilities. It includes eight sub-configurations: BigToM, EmoBench, ExploreToM, FanToM, HiToM, SimpleToM, SocialIQA, and ToMBench, providing over 20,000 samples in total. Each sample is built around a narrative scenario, with core data structures comprising: story background (Story), detailed descriptions of human states (e.g., beliefs, preferences, emotions) and environmental states (e.g., locations, objects, changes) (State), character actions (Action), questions based on the story (Question), and answer pairs (Answer) containing correct and incorrect options. Additionally, each sample is accompanied by rich metadata (Meta), covering attributes such as sample ID, data source, evaluation dimension, task type, difficulty level, ethics category, etc., supporting multi-dimensional ability assessment. Some subsets (e.g., BigToM, EmoBench, SimpleToM, SocialIQA) also provide synthetic data generated by GPT-5.5 (synthetic_gpt_5_5), which can be used for data augmentation or comparative research. This dataset is suitable for training and evaluating artificial intelligence models in areas such as understanding complex social situations, inferring others mental states, conducting causal reasoning, and answering narrative-based question-answering tasks.

创建时间：

2026-05-09

搜集汇总

数据集介绍

构建方式

Hard_ToMDatasets是一个专门用于评估和提升大语言模型心理理论能力的综合性基准数据集。该数据集整合了八个子集，包括BigToM、EmoBench、ExploreToM、FanToM、HiToM、SimpleToM、SocialIQA和ToMBench，每个子集聚焦于心理理论的不同维度。在构建上，数据集以故事为基础，每个样本包含对角色状态、行动、故事文本、问题及正确答案与干扰项的详细标注。部分子集如BigToM还精细刻画了角色的信念、偏好和情绪等人文状态，以及环境状态的变化。数据源自多个已有基准，并经由GPT-5.5模型生成合成样本以扩充数据集的多样性与难度。

特点

该数据集的核心特色在于其多维度、多层次的心理理论评估架构。每个子集均包含了结构化的状态描述（State）、行为记录（Action）和完整叙事（Story），并配有精准的问题与答案对。从简单的单轮推理到复杂的递归信念理解，数据集涵盖了任务难度、伦理类别和条件类型等元信息，为模型推理能力的细致诊断提供了可能。此外，数据集提供了大量带有人工与合成标签的训练样本，总计超过两万条实例，并设计了标准答案与干扰项，使其成为训练和评估模型社交认知能力的宝贵资源。

使用方法

使用Hard_ToMDatasets时，研究者可通过HuggingFace Datasets库按配置名称加载所需的子集。每个子集均提供了标准的训练划分（train）和可选的合成数据划分（synthetic_gpt_5_5），便于进行监督学习或零样本评估。数据集的特征字段设计统一，其中Story字段提供完整故事文本，Question字段包含待解答的问题，Answer字段则封装了正确答案与错误答案。通过元信息字段如dimension和difficulty，用户可针对性地筛选特定能力维度或难度级别的样本，从而开展精细化模型行为分析。

背景与挑战

背景概述

在人工智能领域，心智理论（Theory of Mind, ToM）能力是衡量机器社会智能的关键维度，它要求模型能够推断他人的信念、意图与情感状态。Hard_ToMDatasets数据集于近年来由多个研究团队联合构建，旨在系统性地评估与提升大语言模型在复杂社会情境下的推理能力。该数据集整合了BigToM、EmoBench、ExploreToM、FanToM、HiToM、SimpleToM、SocialIQA及ToMBench等多个子集，覆盖从简单信念推理到多轮互动与情感理解等广泛维度。通过提供结构化的状态-行动-故事-问答框架，该资源为探究机器在心智理论上的瓶颈提供了标准化测试平台，在认知科学与自然语言处理的交叉领域产生了显著影响力。

当前挑战

Hard_ToMDatasets所应对的核心领域挑战在于，大语言模型往往在表面语义匹配上表现优异，却难以真正捕捉隐含的社会认知线索，例如错误信念的递归推理或基于他人视角的情感归因。构建过程中，团队面临多重困难：需确保故事场景的生态效度与维度覆盖的均衡性，避免数据分布偏向特定社会情境；同时，人工标注与合成数据（如GPT-5.5生成样本）之间的质量对齐也构成挑战，尤其是在区分正确与错误答案的语义边界时。此外，不同子集（如HiToM仅含训练集）的数据规模差异增大了跨任务迁移评估的复杂度，要求对模型泛化能力进行精细控制。

常用场景

经典使用场景

心理理论（Theory of Mind, ToM）是认知科学中作为社会智能核心的能力，它使得个体能够理解他人的信念、意图和情感。Hard_ToMDatasets数据集正是为了攻克这一领域的难题而构建，它汇集了BigToM、EmoBench、ExploreToM等多个子集，每一个子集都精心设计了复杂的社会互动故事和提问。该数据集最经典的用法是作为评估和训练大语言模型（LLMs）的基准，通过让模型阅读故事、回答关于角色内心状态的问题，来检验模型是否真正习得了推断他人心理状态的能力。

衍生相关工作

Hard_ToMDatasets的发布催生了一系列富有影响力的衍生工作。诸多研究者利用其包含的FanToM和HiToM子集，专门设计了层次化推理框架和注意力机制来更好地处理长文本中的多人互动关系。该数据集直接启发了心理理论能力与常识推理、道德判断能力的联合建模研究，衍生出如ToMBench的子评测基准，系统性地评估大模型的综合社会智能。此外，针对数据集中特殊设计的错误答案，一些团队开展了对抗性训练研究，显著提升模型在歧义和多模态交互环境下的推理鲁棒性。

数据集最近研究