DynToM
收藏Hugging Face2025-06-05 更新2025-06-06 收录
下载链接:
https://huggingface.co/datasets/YangXiao-nlp/DynToM
下载链接
链接失效反馈官方服务:
资源简介:
DYNTOM是一个用于评估大型语言模型在动态社交情境中理论心智(ToM)能力的基准数据集。它包含1100个社交背景下的5500个场景,共有78100个问题。数据集旨在捕捉人类心智状态随时间变化的演进,与现有集中于静态心智状态的基准不同。
创建时间:
2025-05-22
搜集汇总
数据集介绍
构建方式
在心理理论评估领域,DynToM数据集通过系统性框架构建了1100个社交情境,涵盖5500个时序关联场景。采用多阶段生成流程,首先生成角色档案与社交关系网络,随后设计具有时间连贯性的互动事件链,最终基于动态心智状态变化生成78100道多选问题。每个问题均经过人工验证,确保情境真实性与逻辑一致性。
特点
该数据集的核心特征在于捕捉心智状态的时序演化,突破传统静态评估的局限。其问题设计涵盖信念、情感、意图与行为四个维度,并区分理解类与转化类任务。数据规模达万级且具有细粒度标注,包含71个社交关系类型与35种情感标签,为动态心理理论提供多维评估基准。
使用方法
研究者可通过HuggingFace平台加载数据集,采用标准问答格式进行模型评估。基准测试包含零样本与思维链提示两种范式,需注意区分理解类与转化类问题的性能分析。建议结合时序注意力机制分析模型在动态场景中的表现,并参照提供的人类基线进行对比验证。
背景与挑战
背景概述
心智理论作为社会认知科学的核心领域,旨在探索个体如何推断他人心理状态的能力。DynToM数据集由香港理工大学与上海交通大学联合研究团队于2025年创建,专门针对动态社会情境中心理状态的时序演化进行建模。该数据集通过构建包含5,500个场景的互联社会情境,系统评估大语言模型对信念、情感、意图等多维度心理状态变化的追踪能力,填补了现有基准测试在时序动态性方面的空白,为社会智能计算提供了重要研究基础。
当前挑战
该数据集致力于解决动态心智理论推理的核心挑战:如何准确捕捉心理状态在连续社会互动中的非线性演化规律。构建过程中面临多重技术难题,包括时序一致性的故事线生成、多维度心理状态的标注验证,以及动态情境与静态快照的对比框架设计。实验结果表明,现有模型在心理状态转化任务上的表现较理解任务下降44.7%,凸显了时序推理机制建模的复杂性,尤其是信念推理与行为预测之间的动态关联机制仍需深入探索。
常用场景
经典使用场景
在心理理论评估领域,DynToM数据集被广泛用于测试大型语言模型对动态社会情境中人类心理状态演变的推理能力。研究者通过该数据集构建的时序关联场景,系统评估模型对信念、情感、意图和行为等多维度心理状态的追踪与预测性能,为认知计算研究提供标准化基准。
实际应用
DynToM在社交机器人、智能辅助系统和人机交互界面设计中具有重要应用价值。其动态心理状态评估能力可提升AI系统对用户情绪变化和意图转移的感知精度,为开发具有持续社会适应能力的智能体提供核心训练数据与验证标准。
衍生相关工作
该数据集催生了多项动态心理计算研究,包括时序心理状态建模、多模态心理理论框架构建等方向。基于DynToM的基准测试推动了GPT-4o、Llama等模型的推理机制优化,并衍生出结合链式思维提示的动态心理推理新范式。
以上内容由遇见数据集搜集并总结生成



