pi-llm-bench
收藏Hugging Face2025-08-30 更新2025-08-31 收录
下载链接:
https://huggingface.co/datasets/Cog2ai/pi-llm-bench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估语言模型(LLMs)在处理多轮上下文干扰任务时的能力。数据集包含两种配置:随机更新的 'core' 和顺序更新的 'sequential_additional'。数据集通过模拟对同一键进行多次更新,并要求模型返回每个键的最新值,来测试LLMs的上下文干扰和记忆能力。此外,数据集还包括了如何使用该数据集来评估模型的示例代码。
创建时间:
2025-08-28
原始信息汇总
PI-LLM Bench 数据集概述
数据集基本信息
- 许可证: MIT
- 语言: 英语
- 任务类别: 问答
- 标签: 大语言模型、记忆、检索、上下文干扰、长上下文
数据集配置
核心配置(core)
- 描述: 随机化更新(键值对中的键被打乱顺序),推荐作为主要/SOTA比较设置。在最高压力层级下,所有测试模型(截至2025年5月)都无法可靠恢复最终值
- 数据文件: core.parquet(测试集)
顺序附加配置(sequential_additional)
- 描述: 非随机化——清晰严格的顺序块;证明短上下文(5k-8k token)已经可以对大多数大语言模型产生强烈的上下文干扰。即使使用这种格式良好的数据,许多模型的性能仍然迅速下降
- 数据文件: sequential_additional.parquet(测试集)
核心研究内容
数据集基于键值更新范式设计,通过多次更新相同键的值,测试模型检索每个键最新值的能力。该范式隔离了共指干扰,无需极长干扰上下文。
关键发现
- 所有测试的大语言模型(从早期0.1B到现代600B+模型)都无法可靠检索最新值
- 随着每个键的更新次数(N)增加,准确率呈对数线性下降
- 答案分布从value_1到value_N,随着N增加,答案越来越偏向value_1
- 人类在此任务上接近完美准确率(99%+),显著优于所有大语言模型
实验维度
实验1:更新次数(exp_updates)
- 测试不同更新次数(1到400次)对检索准确率的影响
实验2:并发键数(exp_keys)
- 测试并发键数量增加对检索准确率的影响
- 提供两种设置:固定更新350次和固定更新125次
实验3:值长度(exp_valuelength)
- 测试值长度增长对检索准确率的影响
- 提供两种设置:固定更新20次和固定更新4次
顺序模式特点
在非随机化顺序模式下:
- 大多数现代大语言模型(所有<600B)在仅50-100次更新后就混淆最新值与早期值
- 性能呈现阶梯式失败模式:在达到模型特定阈值前保持接近完美,之后迅速降至接近零
- 即使输入较短(5-8k token,远小于任何大语言模型的上下文窗口),模型仍然失败
相关资源
- 演示网站: https://sites.google.com/view/cog4llm
- 研究论文: https://arxiv.org/abs/2506.08184
- OpenAI MRCR数据集: https://huggingface.co/datasets/openai/mrcr
- DeepMind MRCR论文: https://arxiv.org/pdf/2409.12640v2
数据集文件
- core.parquet: 主数据集(随机化更新),推荐作为主要比较设置
- sequential_additional.parquet: 顺序模式(非随机化,严格的按键顺序更新块),对人类简单但对许多大语言模型仍具挑战性
评估方法
提供完整的Python评估代码,包括:
- 数据集下载和加载
- 模型响应生成
- 响应解析和准确率计算
- 按实验分组的结果统计
理论基础
基于认知科学中的主动干扰(Proactive Interference, PI)范式,这是研究人类工作记忆的基础方法。该测试直接测量干扰(不仅仅是上下文长度)如何限制记忆和检索能力。
搜集汇总
数据集介绍

构建方式
在认知科学领域,主动干扰范式被广泛用于研究人类工作记忆的局限性。PI-LLM Bench数据集采用经典键值更新实验设计,通过随机化或顺序化方式对同一键进行多次值更新,构建了包含1至400次更新、46个并发键的评估框架。数据集生成过程中严格控制变量,包括更新次数、并发键数量和值长度三个维度,以精确测量模型在共指干扰下的检索性能。
特点
该数据集的核心特征在于其能够剥离长上下文干扰,直接暴露大语言模型在共指检索中的本质缺陷。通过键值对的多次更新操作,数据集呈现出所有测试模型均无法可靠检索最终值的普遍现象,且准确率随更新次数增加呈现对数线性下降趋势。数据集提供随机化和顺序化两种配置,其中顺序化模式仅需5-8千令牌即可引发模型性能的断崖式下跌,凸显了模型工作内存的固有局限性。
使用方法
研究者可通过HuggingFace接口下载核心数据集或顺序化附加数据集,使用提供的评估脚本对模型进行测试。评估流程包括加载提示词模板、调用模型生成回复、解析输出并计算准确率等步骤。脚本内置了健壮的键值提取器,支持从自然语言回复中精确提取预测值,并通过与标准答案对比自动计算每个实验条件下的准确率指标,便于进行跨模型的系统性性能比较。
背景与挑战
背景概述
PI-LLM-Bench数据集由跨学科研究团队于2025年创建,主要贡献者包括弗吉尼亚大学的Chupei Wang和纽约大学的Jiaqiu Vince Sun。该数据集旨在探究大语言模型在多重共指上下文中的检索能力缺陷,其核心研究问题聚焦于模型对同一键值对多次更新后的最终值检索表现。作为ICML 2025长上下文基础模型研讨会的入选成果,该数据集通过认知科学中的主动干扰范式,揭示了Transformer架构在处理序列更新时存在的系统性局限,为理解人工智能与人类记忆机制的差异提供了重要基准。
当前挑战
该数据集解决的领域挑战在于大语言模型对多重共指信息的处理能力不足。具体表现为:当同一键名经历多次值更新时,模型难以准确检索最终值,其准确率随更新次数增加呈对数线性下降;构建过程中的技术挑战包括设计精确控制干扰强度的实验范式,确保不同键值对的更新序列具有可比较的干扰效应,同时通过随机化与顺序化两种配置分离上下文长度与干扰效应的耦合因素。
常用场景
经典使用场景
在长上下文语言模型评估领域,该数据集通过精心设计的键值对更新范式,系统性地测试模型在多轮共指干扰下的信息检索能力。研究者将同一键名进行多次值更新后,要求模型返回每个键的最终值,这种设置有效模拟了现实场景中信息动态变化的复杂性。该范式已成为衡量Transformer架构工作记忆极限的标准基准,尤其擅长揭示模型在处理序列化更新时产生的系统性混淆现象。
解决学术问题
该数据集成功量化了语言模型在共指干扰下表现出的工作记忆缺陷,解决了长期困扰学界的模型内在记忆机制评估难题。通过精确控制干扰项数量和更新频率,研究首次证实所有主流大语言模型都存在对数线性准确率下降规律,这一发现颠覆了仅通过扩展上下文窗口提升模型性能的传统认知。该工作为理解Transformer架构的记忆瓶颈提供了关键实证基础,推动了针对模型记忆机制的改进研究。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于认知科学原理的模型记忆机制改进研究。后续工作借鉴人类工作记忆的抑制控制机制,开发了针对性的注意力调制算法;另有研究受其启发设计了记忆增强型架构,通过外部记忆模块缓解共指干扰问题。这些衍生成果不仅深化了对Transformer记忆机制的理论理解,更推动了具有更强信息维护能力的新一代语言模型发展。
以上内容由遇见数据集搜集并总结生成



