PREFEVAL

Name: PREFEVAL
Creator: 亚马逊AGI, 加州大学洛杉矶分校, 明尼苏达大学
Published: 2025-02-14 02:52:03
License: 暂无描述

arXiv2025-02-14 更新2025-02-15 收录

下载链接：

https://prefeval.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

PREFEVAL是由亚马逊AGI、加州大学洛杉矶分校和明尼苏达大学创建的一个评估大型语言模型在对话中遵循用户偏好的能力的数据集。该数据集包含3000个经过人工策划的用户偏好和查询对，涵盖20个日常话题，包括显示和隐藏的用户偏好形式。数据集旨在评估LLM在多轮对话中推断、记忆和遵守用户偏好的能力。

PREFEVAL is a dataset created by Amazon AGI, University of California, Los Angeles, and University of Minnesota for evaluating the ability of large language models to follow user preferences during conversations. This dataset contains 3000 manually curated user preference and query pairs, covering 20 daily topics, including both explicit and implicit forms of user preferences. The dataset is designed to evaluate LLMs' capabilities of inferring, memorizing, and complying with user preferences in multi-turn conversations.

提供机构：

亚马逊AGI, 加州大学洛杉矶分校, 明尼苏达大学

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

PREFEVAL数据集的构建方式是通过手动收集和筛选3,000个用户偏好和查询对，这些对涵盖了20个主题，并且包含了显式和隐式形式的用户个性化或偏好信息。数据集构建过程中使用了Claude 3 Sonnet、Claude 3.5 Sonnet和Claude 3.5 Sonnet等AI语言模型来辅助生成和过滤数据，并确保数据的质量和相关性。同时，为了模拟真实的对话场景，数据集中还包含了来自LMSYSChat-1M数据集的无关对话回合，这些回合的长度可达100k个token，以测试LLM在长上下文中的偏好遵循能力。

特点

PREFEVAL数据集的特点在于其全面性，它不仅包含了显式表达的偏好，还包含了通过对话隐式揭示的偏好。数据集包括了生成和分类两种任务，通过这两种任务可以评估LLM在理解和使用用户偏好方面的能力。此外，数据集还提供了LLM作为评估者的框架，用于测量偏好遵循的准确性和分析错误类型，以及通过多项选择题（MCQ）进行快速评估。

使用方法

使用PREFEVAL数据集的方法包括两个任务类型：生成任务和分类任务。在生成任务中，LLM需要根据用户的查询生成一个长文本响应，并使用LLM作为评估者来检查响应是否与用户的偏好一致。在分类任务中，LLM需要从四个选项中选择一个与用户偏好相符的选项。为了实际使用，PREFEVAL提供了基于可用资源的指南，例如如果评估者模型如Claude 3 Sonnet可用，则可以使用生成任务；如果没有，可以选择本地LLM作为评估者，或者选择不需要LLM评估者的分类任务。此外，数据集还提供了排行榜，比较了各种LLM在不同主题和对话长度上的偏好遵循能力，以及如何使用生成任务评估器进行详细的错误类型分析，并测试隐式偏好形式以评估更高级的偏好遵循能力。

背景与挑战

背景概述

PREFEVAL是一个用于评估大型语言模型（LLMs）在长上下文对话环境中推断、记忆和坚持用户偏好的能力的基准数据集。该数据集包含3,000个手动策划的用户偏好和查询对，涵盖了20个主题。PREFEVAL包含用户个人化或偏好信息的显式和隐式形式，并使用生成和分类任务来评估LLM的性能。PREFEVAL由亚马逊AGI和加州大学洛杉矶分校（UCLA）的研究人员创建，并在ICLR 2025会议上发表了一篇论文。该数据集旨在填补LLMs在个性化对话方面的研究空白，并推动个性化对话代理的发展。

当前挑战

PREFEVAL数据集的挑战包括：1) 所解决的领域问题是LLMs在多会话对话中主动遵循用户偏好的能力；2) 构建过程中遇到的挑战包括用户偏好的隐式表达、多会话上下文的复杂性以及长期偏好检索的能力。PREFEVAL的数据集和评估协议旨在帮助研究人员和开发者理解和提高LLMs的个性化能力，但LLMs在处理长期上下文和隐式偏好方面仍然面临重大挑战。

常用场景

经典使用场景

PREFEVAL数据集主要用于评估大型语言模型（LLMs）在长上下文对话中推断、记忆和遵循用户偏好的能力。该数据集包含3000个手动策划的用户偏好和查询对，涵盖了20个主题，并包含显式和隐式形式的用户个性化或偏好信息。通过生成和分类任务来评估LLMs的性能。PREFEVAL可用于评估多种LLMs在多会话对话中遵循用户偏好的能力，并为个性化对话代理的发展提供有价值的资源。

衍生相关工作

PREFEVAL数据集的发布衍生了一系列相关的工作，旨在改进LLMs的个性化交互能力。这些工作包括开发新的提示方法、迭代反馈机制和检索增强生成方法，以提高LLMs在长上下文对话中遵循用户偏好的能力。此外，研究人员还探索了LLMs在处理多个用户偏好和动态变化的偏好方面的能力。PREFEVAL为LLMs的个性化交互能力的发展提供了重要的基础，并为未来的研究开辟了新的方向。

数据集最近研究