HorizonBench

github2026-04-21 更新2026-04-30 收录

下载链接：

https://github.com/stellalisy/HorizonBench

下载链接

链接失效反馈

官方服务：

资源简介：

HorizonBench是一个用于评估语言模型在长期个性化任务中表现的数据集，用户偏好会在数月的互动中演变，跟踪这些偏好需要推断何时一个陈述的偏好被后续的生活事件改变。每个基准项目都包含一个5选项的多选题，嵌入在平均约4,300轮对话和约163K标记的6个月对话历史中。

HorizonBench is a dataset for evaluating the performance of language models on long-term personalized tasks. User preferences evolve over months of interactive engagement, and tracking such preferences necessitates inferring when a previously stated preference has been modified by subsequent life events. Each benchmark item includes a 5-option multiple-choice question, embedded within an average of approximately 4,300 conversational turns and a 6-month conversational history annotated with roughly 163K tokens.

创建时间：

2026-04-14

原始信息汇总

HorizonBench 数据集概述

基本信息

HorizonBench 是一个用于评估语言模型在长期交互中追踪用户偏好演化能力的基准数据集。每个测试项包含一段约6个月的对话历史（平均约4,300轮对话、163K tokens），以及一个5选1的多项选择题。偏好演化前的旧值作为硬负样本干扰项，用于诊断模型是否未能更新信念。

发布机构：Shuyue Stella Li、Bhargavi Paranjape、Kerem Oktar 等
发布时间：2026年
许可协议：Apache 2.0
论文地址：https://arxiv.org/abs/2604.17283
数据集地址：https://huggingface.co/datasets/stellalisy/HorizonBench

数据集规模

配置名称	行数	描述
benchmark（默认）	4,245	完整评估基准（含对话历史的5选项多选题）
sample	10	精选子集，用于快速探索和测试
mental_state_graphs	360	包含偏好来源的结构化用户时间线

模型评估结果

在25个前沿模型中，最佳模型仅达到52.8%的准确率，多数模型得分等于或低于20%的随机基线。当模型面对已演化的偏好时，选择预演化干扰项的概率显著高于随机水平，说明模型未能整合改变偏好的生活事件。

示例评估输出（模型：gpt-4o）：

总体准确率：42.3% [40.8, 43.8]（n=4,245）
已演化偏好准确率：28.1% [26.1, 30.2]（n=2,135）
静态偏好准确率：56.4% [54.3, 58.5]（n=2,110）
演化-静态差距：-28.3个百分点
随机基线：20.0%

数据集字段

每个基准项包含：

id：唯一标识
generator：生成模型的名称
user_id：用户ID（格式：{generator}/user_{N}）
conversation：完整对话历史
correct_letter：正确答案字母
options：5个选项
has_evolved：偏好是否已演化
preference_domain：偏好领域
distractor_letter：干扰项字母
preference_evolution：偏好演化信息

如何加载数据集

python from datasets import load_dataset

加载基准项

ds = load_dataset("stellalisy/HorizonBench", "benchmark", split="test")

加载心理状态图

graphs = load_dataset("stellalisy/HorizonBench", "mental_state_graphs", split="test")

数据生成管道

生成器从结构化心理状态图构建对话，其中生活事件通过类型化依赖边驱动偏好变化。管道阶段包括：

用户实例化：采样用户画像（人格特质、人口统计信息、社交图谱）
事件采样：基于用户状态和事件历史采样生活事件
偏好演化：根据生活事件因果地演化偏好
对话生成：先生成大纲，再生成完整对话并标注偏好
基准构建：生成反事实响应选项，并经过5个LLM的一致性验证

自定义配置

可通过修改配置文件（src/config/config.yaml）调整以下关键部分：

偏好领域：控制偏好的类型和演化方式
事件类别权重：控制生活事件的分布
助手角色：控制AI助手的角色设定

搜集汇总

数据集介绍

构建方式

HorizonBench的构建基于一个创新的结构化心理状态图生成管线。首先，通过采样用户画像（包括个性特征、人口统计学信息和社会关系网络）来完成用户实例化；接着，根据用户状态和历史事件采样生活事件，并利用因果依赖边驱动偏好随生活事件演化，为每一次偏好变化提供真实溯源。随后，基于标注了偏好变化的对话提纲生成完整的六个月、约4300轮对话历史。最后，通过反事实选择题构建基准测试项，并使用五语言模型共识机制对历史进行验证筛选，确保数据质量与偏好演化的准确性。

使用方法

HorizonBench的使用灵活多样，支持通过CLI命令或Python API进行评估。对于标准模型，只需安装依赖并设置API密钥后，运行'evaluate.py'脚本并指定模型名称即可获取准确率及置信区间，支持中断恢复和条目数量限制。对于自定义方法（如RAG系统、微调模型），可通过'load_benchmark'加载数据，利用'build_prompt'和'extract_letter'等函数集成自有推理管道。数据集还支持按需解析对话结构以进行分块检索，并通过HuggingFace接口加载不同配置数据，便于灵活适配各类研究场景。

背景与挑战

背景概述

HorizonBench是于2026年由Shuyue Stella Li、Bhargavi Paranjape等多位研究者联合构建的长时域个性化评估基准。该数据集诞生于个性化语言模型研究领域，旨在应对用户偏好随时间动态演变的现实场景。与传统静态数据不同，HorizonBench构建了跨越六个月、平均包含约4300轮对话（约16.3万词元）的多轮交互历史，通过五选一的多选题形式，检验语言模型能否从复杂的长程对话中正确推断用户因生活事件而发生变化的偏好。数据集包含4245个评估项，覆盖360位用户，并提供三种配置以支持灵活评估。HorizonBench的出现填补了长程偏好追踪与信念更新评估的空白，为前沿模型在个性化场景下的推理能力设定了全新标杆。

当前挑战

HorizonBench所揭示的核心挑战在于语言模型对人类偏好动态演变的感知与整合能力严重不足。在25个前沿模型中，最佳准确率仅为52.8%，多数模型甚至低于20%的随机基线。当偏好发生演变时，模型更倾向于选取演变前的偏好选项作为答案，即保留了用户最初陈述的偏好而未能整合改变偏好的生活事件，揭示了模型在信念更新机制上的结构性缺陷。此外，数据集的构建本身亦面临挑战：如何通过结构化心理状态图（包含用户人格、生活事件、偏好演变因果关系）生成真实可信的长程对话，并通过五轮LLM共识校验剔除历史不一致的样本，同时保证偏好演变具有因果可追溯、变化边界清晰，是一大技术难题。

常用场景

经典使用场景

在长期人机交互与个性化对话系统的研究中，用户偏好随时间的动态演变构成了一个核心挑战。HorizonBench精准地捕捉这一复杂性，通过构建跨越六个月、包含约4300轮对话与163K令牌的丰富交互历史，评估语言模型能否在用户因生活事件而改变原有偏好时，正确更新其信念状态。该数据集以五选一多项选择题的形式呈现，并巧妙地将演变前的偏好值作为强负向干扰项，从而诊断模型因未能整合关键生活事件而导致的信念更新失败。这一经典设计使HorizonBench成为探索语言模型长期记忆与动态认知能力不可或缺的标准化评测平台。

解决学术问题

HorizonBench直面现有基准测试中普遍存在的静态偏好假设局限，系统性地解决了长期个性化场景下偏好演变追踪这一关键学术难题。研究结果表明，在25个前沿模型中，最佳模型的准确率仅为52.8%，多数模型甚至低于20%的随机基线水平，揭示了当前语言模型在整合跨月时间跨度内生活事件信息以更新用户偏好方面的严重不足。该数据集通过量化模型对演变后偏好的认知滞后，为理解大型语言模型在动态用户建模中的根本性局限提供了严谨的实验证据，对推进个性化对话系统的理论发展具有深远影响。

实际应用

HorizonBench的实际应用价值体现在其对个性化推荐系统、智能助手及长期陪伴型聊天机器人等领域的直接指导意义。在持续数月甚至数年的用户服务中，系统需要敏锐感知用户因职业变动、情感状态变化或生活习惯调整而引发的偏好迁移。该数据集评估了模型能否在医疗咨询场景中识别患者对治疗态度的转变，或在教育场景中捕捉学习者对教学风格的新需求。通过提供可复现的评测框架，HorizonBench为工业界开发具备动态理解能力的个性化系统提供了清晰的技术校验标准，助力打造真正适应人类生活变迁的智能伙伴。

数据集最近研究