IPM-PrefDial

Name: IPM-PrefDial
Creator: 浙江大学
Published: 2025-05-23 01:56:21
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://anonymous.4open.science/r/DecoupledESC-0E37

下载链接

链接失效反馈

官方服务：

资源简介：

IPM-PrefDial数据集是浙江大学团队创建的，旨在解决情感支持对话中存在的心理策略与响应内容纠缠的问题。数据集通过推断性偏好挖掘方法构建，包含21370个策略偏好对和11887个响应偏好对。该数据集旨在为情感支持对话任务中的策略规划和响应生成提供高质量的监督信号，并用于训练去耦情感支持对话框架，以提高对话质量和同情心。

The IPM-PrefDial dataset was developed by a team from Zhejiang University to address the entanglement between psychological strategies and response content in emotional support conversations. Constructed via an inferential preference mining approach, this dataset contains 21,370 strategy-preference pairs and 11,887 response-preference pairs. It is designed to provide high-quality supervision signals for strategy planning and response generation in emotional support dialogue tasks, and can be used to train decoupled emotional support dialogue frameworks to improve dialogue quality and empathy.

提供机构：

浙江大学

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

IPM-PrefDial数据集的构建采用了推断性偏好挖掘（Inferential Preference Mining, IPM）方法，通过动态数据路由机制从监督微调（SFT）模型的推理数据中识别心理策略和回应内容中的错误样本，并将其与人工标注的黄金标准样本配对，形成高质量的策略偏好对和回应偏好对。具体而言，数据集包含21,370个策略偏好对和11,887个回应偏好对，通过严格筛选确保数据质量。

特点

IPM-PrefDial数据集的特点在于其解耦性，将心理策略规划和共情回应生成分离，避免了传统情感支持对话数据中策略与内容纠缠的问题。数据集覆盖了多种心理错误类型，如策略不匹配、缺乏共情、过早情感转移和模板化回应，为模型优化提供了清晰的监督信号。此外，数据集的回应平均字符数差异显著（优选回应124.89字符，拒绝回应83.82字符），凸显了质量对比的显著性。

使用方法

该数据集适用于分阶段优化情感支持对话系统。首先，策略规划模块利用策略偏好对（DSP-dpo）通过直接偏好优化（DPO）减少策略选择偏差；其次，回应生成模块基于回应偏好对（DRG-dpo）优化共情表达。实验表明，这种解耦框架能有效降低偏好偏差（如Llama模型偏差从0.23降至0.15），并提升回应质量（共情评分提高38.75%）。使用时需分别训练两个模块，确保策略与回应的独立优化。

背景与挑战

背景概述

IPM-PrefDial数据集由浙江大学的研究团队于2025年提出，旨在解决情感支持对话（ESC）任务中存在的心理策略与响应内容耦合问题。该数据集基于Gross的情绪调节扩展过程模型（EPMER），通过解耦策略规划与共情响应生成两个子任务，为大型语言模型（LLM）的偏好优化提供了高质量数据支持。其核心创新在于采用推理偏好挖掘（IPM）方法，从监督微调模型的推理数据中自动构建21,370个策略偏好对和11,887个响应偏好对，显著提升了情感支持对话系统的策略多样性和响应质量。该数据集推动了ESC领域从联合优化向分阶段专业化优化的范式转变，为心理健康支持系统的开发提供了重要基准。

当前挑战

IPM-PrefDial数据集面临双重挑战：在领域问题层面，需解决现有ESC系统中普遍存在的策略偏好偏差（如过度依赖固定策略）和共情响应质量不足（如模板化表达）等问题；在构建过程层面，需克服心理学策略与响应内容的固有耦合性导致的偏好对构建困难，以及直接偏好优化（DPO）应用于耦合数据时产生的目标模糊问题。具体表现为：1）现有ESC数据中策略与响应的强关联性使得高质量偏好样本筛选复杂度指数级增加；2）联合优化框架下策略选择与响应生成的相互干扰导致模型出现'负优化'现象，即优化一个维度会损害另一个维度的性能。

常用场景

经典使用场景

IPM-PrefDial数据集在情感支持对话（ESC）领域中被广泛应用于优化大型语言模型（LLM）的情感支持生成能力。通过解耦心理策略与回应内容，该数据集为研究者提供了高质量的训练样本，使得模型能够在策略规划和共情回应生成两个子任务上独立优化。这一方法显著提升了模型在复杂情感支持场景中的适应性和表现。

衍生相关工作

IPM-PrefDial数据集衍生了一系列经典工作，包括基于Gross情绪调节扩展过程模型（EPMER）的解耦ESC框架、动态数据路由机制构建的偏好对挖掘方法，以及针对策略规划和回应生成的独立DPO优化技术。这些工作不仅推动了情感支持对话领域的发展，也为其他需要解耦优化的自然语言处理任务提供了借鉴。

数据集最近研究