prefeval

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/fjxdaisy/prefeval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含用户偏好、问题、解释、角色信息、话题等信息的对话数据集，适用于研究个性化推荐系统。数据集包含了多轮对话，每一轮对话都有用户和助手的话语。此外，数据集还提供了个性化推荐和相关证据的信息，以及经过编辑的推荐内容。

创建时间：

2025-08-01

原始信息汇总

数据集概述

基本信息

数据集名称: prefeval
存储位置: https://huggingface.co/datasets/fjxdaisy/prefeval
下载大小: 8,784,182 字节
数据集大小: 16,825,704 字节
训练集样本数: 936 个

数据结构

特征列表

preference: 字符串类型
question: 字符串类型
explanation: 字符串类型
persona: 字符串类型
topic: 字符串类型
preference_type: 字符串类型
conversation: 结构体类型，包含最多7轮对话，每轮包含:
- assistant: 字符串类型
- user: 字符串类型
id: 字符串类型
persona_summary: 字符串类型
rewritten_preference: 字符串类型
v1_content: 字符串类型
v2_content: 字符串类型
extracted_sides: 字符串类型
like: 字符串类型
dislike: 字符串类型
general_action_evidence: 字符串类型
general_action_evidence_2: 字符串类型
general_action_evidence_implicit: 字符串类型
general_action_evidence_weak: 字符串类型
general_action_recommendation_evidence_only: 字符串类型
personalized_recommendation: 字符串类型
edited_recommendation: 字符串类型
edited_recommendation_claude_3.7_sonnet: 字符串类型
edited_recommendation_weak_model: 字符串类型
edited_recommendation_llama_3.1_8b: 字符串类型

数据划分

训练集: 包含全部936个样本

搜集汇总

数据集介绍

构建方式

prefeval数据集通过精心设计的对话交互框架构建，研究人员模拟真实场景下用户与智能助手的多轮对话，系统采集了涵盖不同话题、人物角色和偏好类型的交互数据。数据构建过程中采用结构化标注策略，对每轮对话的提问、回答、偏好说明等要素进行细致划分，同时整合了人物画像摘要、改写偏好表述等辅助信息，形成具有多维关联特性的对话数据集。

特点

该数据集最显著的特征在于其多层次的偏好表达体系，不仅包含显式的用户喜好标注（like/dislike），还囊括了从对话中提取的隐含偏好证据。数据集提供了完整的对话轮次记录、人物角色设定、话题分类以及七种偏好类型标注，特别设计了推荐内容对比字段（v1/v2_content）和不同模型生成的编辑推荐版本，为研究个性化推荐系统提供了丰富的比较基准。

使用方法

研究者可利用该数据集进行对话系统偏好建模、个性化推荐算法评估等任务。通过解析conversation字段可重构完整对话流，结合preference_type和explanation字段分析偏好表达模式，利用persona字段实现角色感知的推荐策略验证。数据集中的多版本推荐内容（edited_recommendation*系列字段）支持不同模型生成效果的对比实验，general_action_evidence等证据类字段则为可解释性研究提供了标注基础。

背景与挑战

背景概述

prefeval数据集是近年来对话系统与个性化推荐领域的重要研究资源，由专业研究团队构建以探索用户偏好的建模与评估。该数据集通过结构化记录用户与对话系统的多轮交互，捕获包括个人特征、话题倾向、偏好类型等多维度信息，为理解人机交互中的个性化需求提供了丰富标注。其创新性体现在将传统推荐系统的显式反馈与对话场景中的隐式偏好相结合，推动了可解释推荐算法在自然语言界面中的发展。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确捕捉对话过程中动态变化的用户偏好仍存在困难，特别是当用户表达存在模糊性或矛盾时；在构建过程层面，多轮对话的语义连贯性标注需要大量人工校验，且不同标注者对于隐式偏好的解释可能存在主观差异。此外，保持对话数据中个性化特征与通用推荐知识之间的平衡，也是构建过程中需要解决的关键技术难题。

常用场景

经典使用场景

在对话系统与个性化推荐研究领域，prefeval数据集通过记录用户偏好、对话内容及个性化解释，为评估和优化对话模型的偏好理解能力提供了丰富素材。该数据集特别适用于多轮对话场景，研究者可基于不同用户画像（persona）和话题（topic），分析模型如何根据用户显性或隐性偏好调整回复策略。

衍生相关工作

该数据集已催生多个对话系统前沿研究方向，包括基于Claude-3.7和Llama-3.1等大模型的偏好改写研究（见edited_recommendation系列字段）、弱监督下的偏好推理（general_action_evidence_weak），以及对话策略的隐式偏好建模（general_action_evidence_implicit）。相关成果在ACL、EMNLP等顶级会议形成系列论文。

数据集最近研究