BESPOKE
收藏arXiv2025-09-25 更新2025-11-21 收录
下载链接:
https://hf-mirror.com/datasets/yonsei-dli/BESPOKE
下载链接
链接失效反馈官方服务:
资源简介:
BESPOKE 是一个用于评估搜索增强型大型语言模型个性化能力的真实基准数据集。该数据集由真实用户的聊天和搜索历史记录构成,涵盖了广泛的网络用户活动,包括信息搜索和自由形式的聊天。它不仅提供了每个查询的黄金信息需求,还提供了带有人工评分和反馈的响应-判断对,以便对个性化效果进行详细评估。BESPOKE 的构建过程包括长期的人类标注,确保了数据集的真实性和多样性。
BESPOKE is a real-world benchmark dataset for evaluating the personalization capabilities of search-augmented large language models. This dataset is constructed from real users' chat and search histories, covering a wide range of online user activities including information retrieval and free-form chatting. It not only provides the gold-standard information needs for each query, but also offers response-judgment pairs paired with human-rated scores and feedback to enable detailed assessment of personalization effectiveness. The construction process of BESPOKE involves long-term human annotation, which ensures the authenticity and diversity of the dataset.
提供机构:
Yonsei University
创建时间:
2025-09-25
搜集汇总
数据集介绍

构建方式
在检索增强大语言模型个性化评估领域,BESPOKE数据集通过长期深度人工标注构建而成。研究团队招募了30名具有多元背景的标注者,通过为期三周的日常交互收集真实的聊天与搜索历史。标注者基于自身历史信息撰写包含详细背景与意图的查询,并对模型生成的响应从需求对齐、内容深度、语言风格和解释方式四个维度进行精细化评分与诊断性反馈,最终形成包含2870组历史会话与150组标注查询的基准数据集。
特点
该数据集的核心特征体现在其真实性与诊断性双重维度。通过直接采集人类自然交互历史,BESPOKE突破了传统合成数据的局限性,完整保留了用户偏好隐式表达的特性。数据集提供细粒度偏好评分与解释性反馈,能清晰揭示个性化响应在语义理解、内容组织与表达风格等方面的质量差异。其涵盖分析、指导、推荐与解释四类信息寻求场景,确保了评估任务类型的多样性与现实适用性。
使用方法
研究者可借助BESPOKE构建双层评估框架:在事实性维度,通过比对响应内容与标注的金标信息集合计算召回率;在个性化维度,利用GPT-5作为评估骨干,结合查询特定的示范案例与个性化评估准则,生成四维度的量化评分与诊断反馈。该框架支持对检索增强大语言模型在用户历史理解、需求推理及表达适配等能力的系统分析,为个性化系统优化提供明确改进方向。
背景与挑战
背景概述
BESPOKE数据集由延世大学研究团队于2025年提出,旨在解决检索增强大语言模型在个性化信息检索任务中的系统性评估缺失问题。该数据集通过三周深度人工标注构建,包含30位多样化背景用户的2870个真实对话与搜索历史会话,聚焦于分析用户查询背后隐含的个性化信息需求与呈现偏好。其创新性在于将用户历史作为上下文信号,推动了个性化信息检索领域从通用响应向定制化服务范式的转变,为开发适应用户动态偏见的智能系统奠定了实证基础。
当前挑战
该数据集核心挑战体现在两个维度:在领域问题层面,需解决检索增强大语言模型对同一查询背后差异化用户意图的识别难题,包括如何从异构历史数据中推断个性化信息需求,以及动态适配用户偏好的内容呈现形式;在构建过程中,面临真实用户历史采集的隐私保护与数据脱敏平衡、长周期标注的稳定性维持,以及通过多轮迭代生成兼具事实准确性与个性化特征的黄金响应等工程挑战。
常用场景
经典使用场景
在检索增强大语言模型研究领域,BESPOKE数据集作为评估个性化能力的基准工具,其经典应用场景聚焦于模拟真实用户的信息寻求过程。通过收集用户长达三周的聊天与搜索历史,该数据集构建了包含2870个真实会话的丰富语料库,研究人员能够在此基础之上测试模型如何根据用户历史背景推断个性化信息需求。这种基于真实用户行为的评估框架,为分析模型在理解用户查询意图、适配信息呈现方式等方面的表现提供了可靠实验环境。
解决学术问题
该数据集有效解决了检索增强大语言模型领域个性化评估标准缺失的核心学术问题。传统评估方法主要关注事实准确性,而BESPOKE通过细粒度偏好评分和诊断性反馈机制,首次系统性地建立了个性化能力的量化评估体系。其提供的150个用户标注查询及对应黄金信息需求,明确界定了个性化要求的具体维度,使得研究者能够精确诊断模型在需求对齐、内容深度、语调和解释风格四个关键指标上的表现差异,为个性化信息寻求任务的研究奠定了科学基础。
衍生相关工作
该数据集的发布催生了一系列关于个性化检索增强系统的创新研究。基于BESPOKE提供的诊断反馈机制,研究者开发了更精细的用户上下文构建方法,包括查询感知的历史选择策略和结构化用户画像生成技术。这些衍生工作深入探索了如何从嘈杂的用户交互数据中提取隐式偏好信号,推动了动态个性化适配算法的发展。同时,数据集构建过程中采用的长周期深度标注范式,也为其他需要真实用户数据的个性化研究提供了可借鉴的方法论框架。
以上内容由遇见数据集搜集并总结生成



