ESC-Pro

Name: ESC-Pro
Creator: 哈尔滨工业大学
Published: 2025-03-07 20:07:59
License: 暂无描述

arXiv2025-03-07 更新2025-03-11 收录

下载链接：

http://arxiv.org/abs/2503.05362v1

下载链接

链接失效反馈

官方服务：

资源简介：

ESC-Pro数据集是由哈尔滨工业大学的研究团队构建的高质量情感支持对话偏好数据集。该数据集通过蒙特卡洛树搜索（MCTS）扩展已有的标准情感支持对话，生成具有策略偏好的对话树，并从中提取高质量策略偏好对。ESC-Pro不仅包含了优选策略示例，还包含了非优选策略，为模型提供了丰富的训练信号，帮助学习细微的策略权衡，提高适应性决策能力。该数据集适用于优化大型语言模型在情感支持对话中的策略选择准确性和适应性。

ESC-Pro Dataset is a high-quality emotional support conversation preference dataset constructed by the research team from Harbin Institute of Technology. This dataset expands existing standard emotional support conversations through Monte Carlo Tree Search (MCTS) to generate dialogue trees with strategic preferences, and extracts high-quality strategic preference pairs from them. ESC-Pro not only includes examples of preferred strategies but also non-preferred strategies, providing rich training signals for models to learn subtle strategic trade-offs and improve their adaptive decision-making capabilities. This dataset is applicable to optimizing the strategy selection accuracy and adaptability of large language models in emotional support conversations.

提供机构：

哈尔滨工业大学

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

ESC-Pro 数据集是通过使用蒙特卡洛树搜索 (MCTS) 算法构建的，该算法能够系统地探索和优化对话策略。首先，使用 MCTS 将现有的 ESC 数据集扩展成一个结构化的对话树，每个节点代表一个特定的对话状态。然后，通过识别高质量策略响应路径并配对较低分数的替代方案，从扩展的对话树中提取细粒度的偏好数据，从而形成 ESC-Pro 数据集。

特点

ESC-Pro 数据集的特点在于其细粒度、回合级的偏好建模，能够捕捉到对话中每个回合的偏好数据，从而使得模型能够学习到更加细腻的策略权衡。此外，ESC-Pro 数据集还包含了大量的非偏好数据，这为偏好优化提供了丰富的训练信号，使得模型能够学习到更加全面的策略权衡。

使用方法

ESC-Pro 数据集的使用方法主要是通过链式策略优化 (CSO) 算法进行偏好优化。CSO 算法首先使用 DPO 算法对 ESC-Pro 数据集进行训练，然后使用训练好的模型进行策略选择。CSO 算法能够提高策略选择的准确性，并减少策略偏好偏差，从而使得模型能够生成更加符合用户情感需求的对话响应。

背景与挑战

背景概述

在现代社会，随着工作与生活压力的不断增加，人们的情绪压力也在不断上升，因此对情感支持对话（ESC）的需求也在显著增长。ESC旨在为人们提供心理慰藉和指导，帮助他们缓解情绪困扰。大型语言模型（LLMs）在ESC领域展现出巨大的潜力，然而，LLMs在ESC领域面临着两个关键挑战：策略选择准确率低和偏好偏差，这限制了它们对用户情绪需求的适应性。现有的监督微调（SFT）难以解决这些问题，因为它在单一的金标准响应上对模型进行刚性训练，而没有建模策略之间的细微权衡。为了克服这些局限性，ESC-Pro数据集应运而生，它利用蒙特卡洛树搜索（MCTS）构建了高质量的偏好数据集，其中包含轮次级别的策略-响应对。ESC-Pro数据集的构建为LLMs在ESC领域的训练提供了新的可能性，使得LLMs能够生成更具同情心和情境适应性的响应。

当前挑战

ESC-Pro数据集面临的挑战主要包括：1）LLMs在策略选择准确率方面存在困难，往往无法选择情境适当的支持策略；2）LLMs表现出策略偏好偏差，倾向于僵化地选择某些策略，而不是根据用户动态的情绪需求进行适应性调整。为了解决这些挑战，ESC-Pro数据集采用了链式策略优化（CSO）方法，该方法在每个对话轮次优化策略选择偏好，从而提高LLMs在ESC领域的准确性和适应性。实验结果表明，CSO方法在提高策略选择准确率和缓解策略偏好偏差方面具有显著效果，这进一步证明了ESC-Pro数据集作为高质量数据集的有效性，以及细粒度、轮次级别偏好建模在实现有效ESC中的重要性。

常用场景

经典使用场景

ESC-Pro数据集主要用于训练大型语言模型（LLMs），使其能够更有效地进行情感支持对话（ESC）。该数据集通过蒙特卡洛树搜索（MCTS）技术构建，包含对话轮次级别的策略-响应对，用于优化LLMs在每轮对话中的策略选择偏好。训练模型使用ESC-Pro数据集，结合链式策略优化（CSO）方法，可以显著提高LLMs的策略选择准确性和减少策略偏好偏差，从而生成更具同理心和情境适应性的响应。

衍生相关工作

ESC-Pro数据集的提出和应用，为情感支持对话的研究和应用提供了新的思路和方法。基于ESC-Pro数据集，研究人员可以进一步探索LLMs在情感支持对话中的策略选择、偏好学习、情感分析等方面的问题，并开发出更先进、更有效的情感支持系统。此外，ESC-Pro数据集的构建方法和CSO方法也可以应用于其他类型的对话系统，如客服机器人、虚拟助手等，以提高这些系统的对话质量和适应性。

数据集最近研究