Personalized Deep Research Bench (PDR-Bench)

github2025-10-22 更新2025-11-10 收录

下载链接：

https://github.com/OPPO-PersonalAI/PersonalizedDeepResearchBench

下载链接

链接失效反馈

官方服务：

资源简介：

个性化深度研究基准（PDR-Bench）是首个系统评估深度研究代理（DRAs）个性化的基准。它包含10个领域的50个真实世界深度研究任务和25个真实用户档案，产生250个个性化任务-用户对。评估通过PQR框架进行，联合测量个性化对齐（P）、内容质量（Q）和事实可靠性（R）。数据集支持中文和英文。

Personalized Deep Research Benchmark (PDR-Bench) is the first benchmark for systematically evaluating the personalization of Deep Research Agents (DRAs). It consists of 50 real-world deep research tasks across 10 domains and 25 real user profiles, generating 250 personalized task-user pairs. Evaluations are conducted via the PQR framework, which jointly measures Personalization Alignment (P), Content Quality (Q), and Factual Reliability (R). The dataset supports both Chinese and English.

创建时间：

2025-10-22

搜集汇总

数据集介绍

构建方式

在个性化深度研究领域，PDR-Bench数据集通过精心设计的构建流程实现了系统化评估。该数据集整合了来自教育、职业、健康、金融等10个领域的50个真实世界深度研究任务，并与25个包含年龄、职业、生活方式等多维度特征的真实用户画像进行配对，最终形成250个个性化任务-用户查询对。数据集构建采用双语并行策略，确保中英文版本在语义和语境上的一致性，为深度研究智能体的个性化能力评估提供了坚实基础。

特点

该数据集最显著的特征在于其首创的PQR三维评估框架，从个性化对齐、内容质量和事实可靠性三个维度对深度研究报告进行全面衡量。个性化对齐维度通过动态加权机制评估报告与用户画像的匹配程度，涵盖目标对齐、内容适配、呈现风格和行动价值四个关键方面。内容质量维度聚焦于报告的深度洞察、逻辑连贯性和表达清晰度，而事实可靠性维度则通过自动化验证系统确保信息的准确性和引证完整性。这种多维度评估体系为深度研究智能体的性能提供了立体化衡量标准。

使用方法

研究人员可通过配置OpenAI和Jina API密钥快速搭建评估环境，将待测深度研究智能体在指定查询集上的输出结果按照标准格式保存至相应目录。评估流程通过运行预设脚本自动启动，系统将依次执行个性化对齐、内容质量和事实可靠性的多维度评分。评估结果将分层存储在专门的结果目录中，包括整体评分、各维度详细得分及处理日志，为后续的性能分析和比较研究提供完整的数据支持。这种标准化的使用流程确保了评估过程的可重复性和结果的可比性。

背景与挑战

背景概述

个性化深度研究基准（PDR-Bench）于2025年由多机构研究团队联合发布，标志着深度研究智能体领域向个性化评估的重要迈进。该数据集首次系统性地整合了10个领域的50项真实研究任务与25个动态用户画像，构建了250个个性化任务-用户配对场景。其核心研究问题聚焦于如何量化评估智能体在复杂研究任务中对用户个性化需求的适配能力，通过PQR三维评估框架——个性化对齐、内容质量与事实可靠性——为深度研究智能体的发展提供了标准化测评范式，推动了人机协作研究向精准化方向发展。

当前挑战

在解决深度研究个性化适配问题时，需攻克多维度动态评估的复杂性：既要确保生成内容与用户画像的深度契合，又需维持学术严谨性与事实准确性。构建过程中面临双重挑战：其一是真实用户画像与跨领域任务的动态配对，需平衡个性化维度与领域泛化能力；其二是评估体系的设计，PQR框架需通过元评估器动态生成权重，并建立自动化事实核查机制，这对多语言数据对齐与评估一致性提出了极高要求。

常用场景

经典使用场景

在个性化深度研究领域，PDR-Bench作为首个系统性评估深度研究代理个性化能力的基准，其经典使用场景体现在对50个跨领域真实研究任务与25个用户画像的配对评估。该数据集通过PQR三维评估框架，为研究社区提供了标准化测试环境，特别适用于评估智能体在生成研究报告时如何平衡个性化需求与内容质量。各类深度研究系统在此基准上的表现差异，揭示了不同架构在用户适配性方面的优劣势。

衍生相关工作

基于该数据集衍生的经典工作包括对开源与商业深度研究代理的对比研究，如OAgents在个性化维度上的卓越表现引发了对记忆机制优化的深入探讨。Gemini 2.5-Pro在事实可靠性方面的优势推动了检索增强生成技术的改进。后续研究多聚焦于平衡个性化与事实准确性的算法创新，部分工作尝试将PQR框架扩展至多模态研究场景，还有研究致力于开发更细粒度的用户画像建模方法以提升系统适配性。

数据集最近研究