DeepPref

Name: DeepPref
Creator: 腾讯PCG基础算法中心, 北京大学电子与计算机工程学院
Published: 2025-10-13 17:26:47
License: 暂无描述

arXiv2025-10-13 更新2025-11-19 收录

下载链接：

https://github.com/Zephyrian-Hugh/Deep-pref

下载链接

链接失效反馈

官方服务：

资源简介：

DeepPref是一个包含3000对偏好查询的大型数据集，涵盖20个主题。该数据集由模拟多方面的认知委员会创建，该委员会生成带有批评注释的推理链，以分析查询语义并揭示潜在风险。DeepPref旨在教模型如何推理用户的潜在意图并主动缓解风险，从而为模型提供过程级别的监督。

DeepPref is a large-scale dataset containing 3000 preference query pairs, covering 20 distinct topics. This dataset is created by a simulated multi-faceted cognitive committee, which generates reasoning chains with critical annotations to analyze query semantics and uncover potential risks. DeepPref aims to train models to reason about users' implicit intentions and proactively mitigate risks, thereby providing process-level supervision for the models.

提供机构：

腾讯PCG基础算法中心, 北京大学电子与计算机工程学院

创建时间：

2025-10-13

搜集汇总

数据集介绍

构建方式

在个性化大语言模型对齐研究领域，DeepPref数据集通过创新的多维度认知模拟框架构建而成。该数据集包含20个主题领域的3000组偏好-查询对，采用思维树架构模拟多元专家委员会进行推理路径生成。构建流程分为两阶段：首先通过多角色认知委员会生成多样化推理链，每个推理链由序列化思维步骤构成；随后由大语言模型评估器对每个推理步骤进行细粒度标注，生成包含文本批判和量化评分的结构化数据，形成完整的批判标注推理链数据集。

使用方法

该数据集主要服务于大语言模型的深度对齐研究。研究人员可将DeepPref划分为推理训练集和策略微调集，分别用于训练个性化生成过程奖励模型和优化策略模型。在使用过程中，首先利用数据集中的批判标注推理链训练奖励模型，使其学会生成步骤级批判和评分；随后通过拒绝采样微调初始化策略模型，最终结合过程级奖励信号进行批判驱动的策略对齐。这种分层使用方法能显著提升模型在深度偏好理解和防御性推理方面的性能。

背景与挑战

背景概述

DeepPref数据集由腾讯基础算法中心与北京大学合作团队于2025年提出，聚焦于大语言模型个性化对齐领域。该数据集旨在解决传统对齐方法在推断用户深层隐式偏好方面的局限性，通过模拟多维度认知委员会生成带批判性标注的推理链，为模型提供过程级监督信号。其核心研究问题在于突破表层偏好匹配的认知鸿沟，推动语言模型从机械响应向深度意图理解演进，为构建真正个性化的对话系统奠定了数据基础。

当前挑战

DeepPref面临的领域挑战主要体现为双重认知鸿沟：偏好鸿沟要求模型从有限显式陈述中推断未明说的目标语义与风险容忍度，过程鸿沟则需培养防御性推理能力以应对现实场景中的模糊性。构建过程中的技术挑战包括：需通过多专家角色模拟生成3000组跨领域偏好-查询对，设计树状思维框架实现推理路径多样性，并建立细粒度批判标注机制对每个推理步骤进行质量量化，最终形成可支撑过程级强化学习的结构化监督数据。

常用场景

解决学术问题

DeepPref有效解决了传统对齐方法中存在的偏好鸿沟与过程鸿沟双重挑战。通过提供3000个涵盖20个领域的偏好-查询对及其细粒度推理标注，该数据集使模型能够突破表层偏好匹配的局限，系统学习如何从模糊查询中推断未声明的目标、语义语境和风险容忍度，为构建真正理解用户深层意图的对话系统奠定了数据基础。

实际应用

在实际应用层面，DeepPref支撑的个性化对齐技术已逐步应用于智能客服、个性化推荐和医疗咨询等高风险场景。基于该数据集训练的模型能够准确捕捉用户对隐私保护、价值观契合等隐性需求，在金融建议生成中规避误导性推荐，在健康咨询中识别未明说的症状担忧，显著提升了AI助手的可靠性和用户满意度。

数据集最近研究