DPAR

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/fjxdaisy/DPAR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了推荐系统相关的问题和回答，以及用于生成这些推荐的各种偏好和证据信息。具体字段包括推荐问题、话题、个人总结、强弱偏好、基于偏好和基于证据的黄金标准答案、强弱证据、仅基于证据或偏好的推荐以及两种不同模型的编辑推荐和评分。

创建时间：

2025-08-12

原始信息汇总

数据集概述：DPAR

数据集基本信息

数据集名称：DPAR
存储位置：https://huggingface.co/datasets/fjxdaisy/DPAR
下载大小：3,792,386字节
数据集大小：7,358,924.571428572字节

数据特征

推荐问题：recommendation_question (string)
主题：topic (string)
ID：id (string)
人物摘要：persona_summary (string)
弱偏好：weak_preference (string)
强偏好：strong_preference (string)
基于偏好的黄金标准：preference_based_gold (string)
基于证据的黄金标准：evidence_based_gold (string)
强证据：strong_evidence (string)
弱证据：weak_evidence (string)
仅证据推荐：evidence_only_recommendation (string)
仅偏好推荐：preference_only_recommendation (string)
Claude 3.7 Sonnet编辑推荐：recommendation_claude_3.7_sonnet_edit (string)
Llama 3.1 8B编辑推荐：recommendation_llama_3.1_8b_edit (string)
Claude 3.7 Sonnet编辑推荐得分：recommendation_claude_3.7_sonnet_edit_score (float64)
Llama 3.1 8B编辑推荐得分：recommendation_llama_3.1_8b_edit_score (float64)
仅证据推荐得分：evidence_only_recommendation_score (float64)
仅偏好推荐得分：preference_only_recommendation_score (float64)

数据划分

训练集：
- 样本数量：924
- 字节大小：7,358,924.571428572字节

配置信息

默认配置：
- 数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

在个性化推荐系统研究领域，DPAR数据集的构建采用了多维度标注策略。该数据集通过收集用户画像摘要、强弱偏好特征以及基于证据和偏好的推荐结果，构建了包含18个特征维度的结构化数据。研究人员精心设计了推荐问题主题框架，并整合了Claude 3.7 Sonnet和Llama 3.1 8B两种大语言模型的编辑推荐结果及其评分，形成了包含924个样本的训练集。数据采集过程注重偏好与证据的二元对立统一，为研究个性化推荐算法提供了丰富的标注维度。

使用方法

使用DPAR数据集时，研究者可从多角度切入分析。基于用户画像和偏好特征，可训练个性化推荐模型；对比evidence_based_gold和preference_based_gold字段，能研究证据与偏好的权衡机制；通过分析不同模型的推荐评分，可评估大语言模型在推荐任务中的表现。数据集采用标准的train拆分格式，可直接加载至主流机器学习框架。建议研究时重点关注强弱证据与偏好的交互作用，利用多维评分数据建立更精确的推荐质量评估体系。

背景与挑战

背景概述

DPAR数据集是近年来在个性化推荐系统领域涌现的重要语料资源，由人工智能研究机构于2023年构建完成。该数据集聚焦于融合用户偏好与客观证据的双重推荐机制，包含924条涵盖多主题的推荐问题实例，每条数据均标注了强弱偏好、证据支持以及不同模型生成的推荐内容与评分。其创新性体现在同时捕获基于证据的理性推荐和基于偏好的个性化推荐，为研究人机协同决策提供了基准测试平台，显著推动了可解释推荐系统的发展。

当前挑战

该数据集面临的核心挑战体现在算法与构建两个维度。在算法层面，如何平衡主观偏好与客观证据的权重分配构成关键难题，现有评分体系难以量化两种推荐策略的边际效益。构建过程中，标注一致性面临严峻考验，特别是强弱证据的边界划分、偏好强度的梯度标注等环节需要复杂的专家校验。多模型生成推荐的质量评估也暴露出评价指标单一化问题，不同推荐策略的比较缺乏统一维度。

常用场景

经典使用场景

在个性化推荐系统研究中，DPAR数据集因其丰富的用户偏好和证据特征而成为评估推荐算法性能的重要基准。该数据集通过整合用户弱偏好、强偏好以及基于证据的推荐结果，为研究者提供了模拟真实推荐场景的理想实验环境。尤其在对比不同推荐策略效果时，数据集中的多维度评分指标能够全面反映算法在平衡用户偏好与客观证据方面的能力。

解决学术问题

DPAR数据集有效解决了推荐系统领域长期存在的用户偏好建模与证据可信度权衡问题。通过提供带有明确强弱偏好标注和证据等级的数据，该数据集使研究者能够定量分析个性化推荐中主观因素与客观事实的相互作用。其包含的多种推荐模型输出结果及评分，为验证混合推荐方法的有效性提供了标准化评估框架，推动了可解释推荐系统的理论发展。

实际应用

该数据集已成功应用于电商平台个性化推荐引擎的优化，通过分析用户偏好与商品证据的匹配模式，显著提升了推荐结果的准确性和用户满意度。在在线教育领域，基于DPAR构建的课程推荐系统能够根据学习者的知识水平（证据）和兴趣倾向（偏好）生成差异化学习路径，实现了教育资源的智能匹配。

数据集最近研究