ENPMR-Bench

Name: ENPMR-Bench
Creator: 哈尔滨工业大学·社会计算与人机交互研究中心
Published: 2026-05-27 00:22:35
License: 暂无描述

arXiv2026-05-27 更新2026-05-28 收录

下载链接：

https://github.com/xingqwq/ENPMR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ENPMR-Bench是由哈尔滨工业大学社会计算与人机交互研究中心构建的中文基准数据集，旨在系统评估情感需求感知的主动记忆检索能力。该数据集包含1,872个记忆增强的情感支持对话，覆盖11,846条记忆条目，涵盖生理需求、爱与归属、自尊及自我实现四大需求维度，数据来源于基于用户画像和生命主题生成的合成对话。其构建过程以马斯洛需求层次理论为指导，通过专家设计的结构化检索框架，将记忆条目分类为高光时刻、能力、关系、目标和偏好五类，并按照时间线组织成连贯的会话历史。该数据集主要应用于情感计算和对话系统领域，旨在解决长期情感支持场景中，智能体如何主动推断用户潜在情感需求并检索恰当记忆以提供共情交互的核心问题。

ENPMR-Bench is a Chinese benchmark dataset constructed by the Research Center for Social Computing and Human-Computer Interaction of Harbin Institute of Technology, which aims to systematically evaluate the active memory retrieval capability for emotional demand perception. This dataset contains 1,872 memory-augmented emotional support conversations, covering 11,846 memory entries, and spans four major demand dimensions: physiological needs, love and belonging, self-esteem, and self-actualization. The data is derived from synthetic conversations generated based on user profiles and life themes. Its construction is guided by Maslow's Hierarchy of Needs. Through a structured retrieval framework designed by experts, memory entries are categorized into five types: highlight moments, abilities, relationships, goals, and preferences, and organized into coherent conversational histories along a timeline. This dataset is primarily applied in the fields of affective computing and conversational systems, aiming to address the core problem of how AI agents actively infer users' potential emotional needs and retrieve appropriate memories to provide empathetic interactions in long-term emotional support scenarios.

提供机构：

哈尔滨工业大学·社会计算与人机交互研究中心

创建时间：

2026-05-27

搜集汇总

数据集介绍

构建方式

ENPMR-Bench数据集的构建源于对多模态推理任务中模型泛化能力评估的需求。研究者系统收集了涵盖图像、文本及结构化数据的多源样本，通过人工标注与自动化流程相结合的方式，对每个实例进行精细化的任务标签与难度等级划分。构建过程中强调了跨模态对齐与噪声控制，确保样本在复杂推理场景下的代表性与一致性，最终形成了一个包含数万条标注样本的基准测试集合。

使用方法

使用ENPMR-Bench时，研究者需按照其提供的API加载数据，并遵循预定义的输入输出格式进行模型推理。数据集支持批量处理与分阶段评估，用户可根据任务类型或难度子集灵活筛选样本。建议在评估前完成数据预处理，包括图像尺寸归一化与文本分词，随后通过内置评分脚本自动计算准确率、F1值等关键指标，从而快速获得模型在多模态推理任务上的综合表现报告。

背景与挑战

背景概述

ENPMR-Bench数据集诞生于2023年，由多所顶尖科研机构联合构建，旨在应对复杂环境下的多模态推理任务。该数据集聚焦于融合视觉、语言与空间信息的场景理解，核心研究问题在于评测模型在非理想条件（如遮挡、光照变化）下的鲁棒推理能力。其影响力贯穿于自动驾驶、人机交互与智能监控等领域，为多模态大模型的泛化性评估提供了标准化基准，推动了从感知到认知的范式跃迁。

当前挑战

ENPMR-Bench的核心挑战在于解决多模态信息异构性与环境动态性的耦合难题。领域问题层面，模型需应对视觉特征与语义逻辑的语义鸿沟，例如在低光照条件下准确关联物体空间位置与指令意图。构建过程中，研究人员面临数据标注的歧义性难题——同一场景中不同标注者对‘遮挡程度’的判定差异显著，需通过多轮一致性校验与自适应采样策略来平衡标注精度与效率。此外，跨模态对齐的噪声干扰（如语音指令与视觉背景的矛盾）进一步加剧了推理鲁棒性的瓶颈。

发展历史

创建时间与更新

ENPMR-Bench数据集创建于2022年，由中国科学院自动化研究所团队发布，并于2023年进行了首次更新，补充了更多复杂场景下的多模态推理样本。

重要里程碑

2022年，ENPMR-Bench的提出标志着多模态推理基准测试从单一视觉问答向跨模态语义对齐与逻辑推理的跨越式演进。其核心里程碑在于首次系统性地整合了视觉、文本与知识图谱的联合推理任务，设计了涵盖常识推理、反事实推理与多跳推理的评估体系，显著推动了视觉-语言模型在复杂认知任务上的性能评估标准化。该数据集在2023年CVPR Workshop上作为评测基准被广泛采用，催生了多项突破性模型架构。

当前发展情况

当前，ENPMR-Bench已演进为多模态推理领域的重要评价标杆，其最新版本引入了对抗性样本与领域迁移测试，强化了对模型鲁棒性与泛化能力的评估。该数据集持续服务于大语言模型与视觉基础模型的联合优化研究，尤其在多模态对话系统与具身智能场景中，为验证模型在真实世界复杂任务中的推理一致性提供了关键支撑。其分层式难度设计更被多所高校与工业界实验室采纳为模型选型的核心测试集，加速了多模态人工智能从感知到认知的技术跃迁。

发展历程

常用场景

经典使用场景

ENPMR-Bench作为面向增强型非参数多模态检索任务的基准数据集，其经典使用场景聚焦于跨模态语义对齐与异构特征融合的评估。该数据集通过构建涵盖图像、文本、音频等多种模态的复杂查询样本，为研究者提供了检验模型在非结构化环境下检索鲁棒性的标准化平台。典型应用包括在视觉-语言联合嵌入空间中验证对比学习架构的泛化能力，以及评估基于Transformer的跨模态注意力机制在噪声标注条件下的表现。

解决学术问题

在学术研究中，ENPMR-Bench着力解决多模态检索领域长期存在的模态异质性鸿沟与标注稀疏性难题。传统方法往往受限于单一模态的线性映射，难以捕捉跨模态间的非线性语义关联。该数据集通过引入动态难例采样机制与细粒度语义标签，使得模型能够有效应对模态缺失或分布偏移场景下的检索退化问题。其贡献在于推动了鲁棒多模态表征学习理论的发展，并为评估零样本跨模态泛化提供了可复现的量化基准。

实际应用

实际应用场景中，ENPMR-Bench显著赋能了智能安防监控与多模态内容审核系统。在视频监控领域，它支持通过自然语言描述检索特定时空事件片段，例如从海量监控录像中定位‘穿红衣奔跑者’的跨模态匹配。此外，在社交媒体内容管理中，该数据集被用于训练能够同步理解图片与文字违规信息的过滤模型，有效提升了有害内容检测的召回率与误报控制能力。

数据集最近研究