PersonaLens

arXiv2025-06-12 更新2025-06-13 收录

下载链接：

https://github.com/amazon-science/PersonaLens

下载链接

链接失效反馈

官方服务：

资源简介：

PersonaLens是一个用于评估面向任务的AI助手个性化能力的全面基准数据集。该数据集由亚马逊的研究团队创建，包含1500个用户配置文件、111个任务以及两个基于LLM的代理：一个模拟真实用户与AI助手进行任务导向对话的用户代理，以及一个基于LLM-as-a-Judge范式评估个性化的法官代理。数据集涵盖了丰富的用户偏好和交互历史，为个性化评估提供了深入的上下文信息。

PersonaLens is a comprehensive benchmark dataset designed to evaluate the personalized capabilities of task-oriented AI assistants. Developed by Amazon's research team, the dataset encompasses 1500 user profiles, 111 distinct tasks, and two LLM-powered agents: one is a user agent that simulates real users to conduct task-oriented dialogues with AI assistants, and the other is a judge agent that assesses personalization following the LLM-as-a-Judge paradigm. The dataset covers rich user preferences and interaction histories, providing in-depth contextual information for personalized evaluation.

提供机构：

亚马逊

创建时间：

2025-06-12

原始信息汇总

PersonaLens数据集概述

数据集简介

PersonaLens是一个用于评估AI助手在完成任务时个性化响应能力的综合性基准测试。该基准通过丰富的用户档案、多样化任务和创新多智能体评估框架，专注于个性化任务导向的辅助场景。

核心特征

用户档案：包含多样化偏好和交互历史的丰富用户画像
任务设置：覆盖20个领域的100+任务
评估框架：
- 用户智能体：模拟真实任务导向对话
- 评判智能体：评估个性化质量、响应质量和任务完成度

项目结构

PersonaLens/ ├── src/ # 对话生成与评估脚本 ├── data/ # 用户档案和任务数据 │ ├── profile/ # 用户偏好和交互历史 │ └── task/ # 多领域任务规范 └── util/ # 工具函数

使用说明

1. 对话生成

支持单域(SD)和多域(MD)任务对话生成：

执行脚本：generate_dialogue.py 或 generate_dialogue_md.py
支持模型：Claude-3、Llama-3、Mistral等系列
输出路径：output/dialogue/{user_id}/{assistant_model_id}/

2. 对话评估

评估维度包括：

任务完成度(task_completion)
个性化(personalization)
自然度(naturalness)
连贯性(coherence)
输出路径：output/evaluation/{user_id}/{assistant_model_id}/{evaluation_dimension}/

3. 结果汇总

使用gather_evaluation.sh编译评估结果

技术依赖

Python 3.11+
Amazon Bedrock服务
支持的模型列表详见使用说明

许可信息

许可证：CC-BY-NC-4.0

搜集汇总

数据集介绍

构建方式

PersonaLens数据集通过精心设计的用户模拟与评估框架构建而成，包含1,500个涵盖多元人口统计特征的用户档案，每个档案整合了20个领域的111项任务。数据生成采用两阶段流程：首先基于PRISM Alignment数据集构建人口统计骨架，随后通过Claude 3 Sonnet生成符合用户背景的偏好和交互历史。为确保数据质量，采用LLM驱动的自动一致性检查与人工审核相结合的方式，辅以Shannon均匀度指标验证偏好分布的合理性。

特点

该数据集的核心特征体现在三个方面：多维度用户建模整合了人口统计、领域偏好与历史交互的立体画像；任务设计包含单领域（TSD）与跨领域（TMD）双重模式，覆盖从电影推荐到旅行规划的20个生活场景；评估体系创新性地采用双智能体架构，用户代理模拟真实对话，裁判代理基于LLM-as-a-Judge范式实现自动化评估。数据集的122,133个对话实例展现出0.362/0.805的Dist-1/2词汇多样性指标，显著优于同类基准。

使用方法

使用PersonaLens需遵循标准化协议：首先选择目标用户档案与任务组合，通过用户代理发起对话；随后将待测AI助手的响应输入裁判代理进行评估。评估维度包含任务完成率（TCR）、个性化得分（1-4量表）及对话质量指标。对于跨领域任务评估，需特别注意用户偏好掩码μ对任务域的过滤机制。数据集支持全自动评估流程，同时提供接口允许研究者自定义评估智能体的提示策略。

背景与挑战

背景概述

PersonaLens是由爱丁堡大学和亚马逊的研究团队于2025年推出的任务导向型对话系统个性化评估基准。该数据集针对大语言模型在个性化对话任务中的评估空白，通过构建包含1,500个用户档案、111个跨20个领域的任务场景，以及基于LLM的用户代理和评估代理，系统性地解决了传统评估方法在任务完成度与个性化平衡方面的不足。其创新性地整合了人口统计信息、用户偏好和交互历史等多维特征，为对话系统的个性化能力评估提供了标准化框架，对推动个性化AI助手的发展具有重要意义。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，需解决任务导向对话中个性化响应与任务完成度的复杂平衡问题，特别是多领域任务中用户偏好的动态适应难题；在构建层面，需要确保生成式用户档案的内在一致性，避免LLM生成数据中的潜在偏见，同时设计可靠的自动化评估指标以替代传统人工评估。具体挑战包括跨领域偏好冲突的建模、多轮对话中个性化程度的量化，以及评估代理与人类判断的一致性验证等关键技术难点。

常用场景

经典使用场景

在对话式人工智能助手的个性化评估领域，PersonaLens数据集通过模拟真实用户行为与AI助手的多轮任务导向对话，为研究者提供了系统评估个性化能力的标准化测试平台。该数据集通过构建包含丰富用户画像、偏好历史及情境上下文的任务场景，使得研究者能够精确量化AI助手在理解用户独特需求、记忆交互历史以及动态调整响应策略方面的表现。

解决学术问题

PersonaLens有效解决了当前个性化研究中的关键瓶颈问题：传统评估方法局限于闲聊场景或狭窄领域，难以捕捉任务导向对话中个性化与目标完成的复杂平衡。该数据集通过引入基于LLM的用户代理和法官代理，实现了自动化、可扩展的评估流程，同时保持真实交互的复杂性，为开发更具适应性和用户中心主义的AI系统提供了重要基准。

衍生相关工作

基于PersonaLens的评估框架，研究者已衍生出多项创新工作：Alireza Salemi等人提出了检索增强的个性化优化方法，Lee等人开发了防止大语言模型遗忘用户偏好的微调技术，Wang团队则构建了多源检索增强生成系统。这些工作共同推动了对话系统在记忆机制、偏好建模和跨域一致性方面的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集