MotiveBench

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/chicosirius/MotiveBench

下载链接

链接失效反馈

官方服务：

资源简介：

MotiveBench是一个用于评估大型语言模型（LLM）的人类似动机和行为推理能力的基准。它包含200个多样化的配置文件和600个推理任务，涵盖了基于马斯洛需求层次的多个动机级别。这个数据集旨在评估LLM在不同情境和场景中推理人类动机的能力。

创建时间：

2025-08-07

搜集汇总

数据集介绍

构建方式

MotiveBench数据集的构建基于心理学领域的经典理论框架，采用多源异构数据融合的方法精心设计。研究团队从Persona-Hub虚拟角色库、亚马逊真实用户评论以及博主文章三个领域采集原始数据，通过专家标注的方式构建了200个多样化场景和600个推理任务。每个数据点严格遵循马斯洛需求层次理论和Reiss动机模型进行双重标注，确保动机分类的科学性和完整性。数据收集过程注重场景的真实性和角色的多样性，最终形成包含情境描述、角色档案、动机分类和行为预测四个维度的结构化数据集。

特点

该数据集最显著的特点是采用双理论框架标注系统，同时整合了马斯洛的五层次需求理论和Reiss的16种基本欲望模型。数据涵盖生理需求、安全需求、社交需求、尊重需求和自我实现等完整动机谱系，并细分为动机推理、行为推理以及动机行为联合推理三类任务。每个场景都配有详尽的角色背景信息和多选项标准化测试题，其中200个真实场景平均每个包含3个推理维度，共计600个评估点，为衡量语言模型的动机推理能力提供了多维度的评估基准。

使用方法

使用该数据集时，研究者可通过加载不同领域的配置文件（Amazon、Blog或Persona）获取特定场景的评估数据。典型评估流程包括：将场景描述和角色档案输入待测语言模型，要求模型完成动机推断、行为预测或联合推理任务，最后与专家标注的标准答案进行比对。数据集采用JSONL格式存储，每个条目包含完整的四元组结构，支持端到端的模型性能评测。为保障评估效度，建议采用分层抽样方式从不同动机层级选取测试案例，并综合计算模型在各类推理任务上的准确率、召回率等指标。

背景与挑战

背景概述

MotiveBench是由Xixian Yong等研究人员在2025年提出的一个创新性数据集，旨在评估大型语言模型在人类动机与行为推理方面的能力。该数据集基于马斯洛需求层次理论和Reiss动机模型构建，包含200个多样化场景和600个推理任务，覆盖了从生理需求到自我实现的多层次动机分析。作为ACL 2025会议的研究成果，该数据集通过融合心理学理论与人工智能评估框架，为衡量语言模型的情感智能和动机推理能力提供了标准化基准。其跨领域设计整合了人物画像、亚马逊评论和博客文章等多源数据，显著推动了AI系统对人类复杂动机机制的理解研究。

当前挑战

MotiveBench面临的领域挑战主要体现在对人类复杂动机的建模精度上，由于动机具有主观性和文化依赖性，模型需要准确区分马斯洛理论中不同层级需求的细微差异。在构建过程中，研究人员需解决多源数据对齐的难题，包括人物画像与真实用户行为的一致性验证，以及动机标签在跨文化场景下的普适性标注。技术层面需平衡任务设计的复杂度与评估可行性，例如在行为推理任务中既要保持场景的真实性，又要确保选项具有明确的判别性。这些挑战使得该数据集成为检验语言模型深层认知能力的试金石。

常用场景

经典使用场景

在心理学与人工智能交叉领域的研究中，MotiveBench数据集被广泛用于评估大型语言模型对人类动机推理的模拟能力。该数据集通过构建200个多样化场景和600个推理任务，覆盖马斯洛需求层次理论的五个等级，为研究者提供了系统化测试模型理解人类行为内在动机的标准化工具。其经典应用体现在模型对虚拟人物在复杂情境下的行为预测任务上，例如判断科学家过度准备演讲背后的动机类型。

衍生相关工作

基于该数据集衍生的研究已形成系列重要成果，包括动机感知对话系统MotivBot、行为预测框架BehaveNet等。ACL 2025主会议论文进一步扩展了其在跨文化动机分析中的应用，而后续工作《Hierarchical Motive Modeling》则构建了分层动机表征学习架构，这些研究共同推动了机器情感计算领域的范式演进。

数据集最近研究