BEAM
收藏github2025-11-11 更新2025-11-22 收录
下载链接:
https://github.com/mohammadtavakoli78/BEAM
下载链接
链接失效反馈官方服务:
资源简介:
BEAM是一个用于评估语言模型长期记忆能力的综合数据集。它包含多尺度对话(128K、500K、1M和10M tokens),涵盖通用、编程和数学等多个领域,旨在评估十种不同的记忆能力。为评估这些能力,为每个对话生成了一组探测问题。
BEAM is a comprehensive dataset for evaluating the long-term memory capabilities of language models. It includes multi-scale dialogues (128K, 500K, 1M, and 10M tokens) covering multiple domains such as general scenarios, programming, and mathematics, aiming to assess ten distinct memory capabilities. To evaluate these capabilities, a set of probing questions is generated for each dialogue.
创建时间:
2025-10-29
原始信息汇总
BEAM数据集概述
数据集简介
BEAM是一个用于评估语言模型长期记忆能力的综合性数据集,包含多尺度对话(128K、500K、1M和10M tokens),涵盖通用、编程和数学等多个领域,旨在评估十种不同的记忆能力。
数据集规模
- 总对话数:100个对话
- 规模分布:
- 128K tokens:20个对话
- 500K tokens:35个对话
- 1M tokens:35个对话
- 10M tokens:10个对话
对话统计特征
| 对话规模 | 用户消息数 | 助手消息数 | 助手提问数 | 后续问题数 | 对话轮次 |
|---|---|---|---|---|---|
| 128K | 144 | 144 | 27 | 216 | 107 |
| 500K | 544 | 544 | 79 | 51 | 416 |
| 1M | 1,067 | 1,067 | 105 | 120 | 842 |
| 10M | 10,435 | 10,435 | 1,151 | 1,528 | 7,757 |
探测问题类型
- 弃权:评估模型在缺乏证据时是否拒绝回答
- 矛盾解决:检测和调和远距离对话轮次中的不一致陈述
- 事件排序:识别和重建对话中信息演变的顺序
- 信息提取:从长历史中回忆实体和事实细节
- 指令遵循:检查在长上下文中持续遵守用户指定约束的能力
- 知识更新:评估随着新事实出现而修订存储信息的能力
- 多会话推理:整合多个非相邻对话段落的证据进行推理
- 偏好遵循:捕捉适应不断变化偏好的个性化响应
- 摘要:评估抽象和压缩对话内容的能力
- 时序推理:测试关于显性和隐性时间关系的推理能力
数据获取
- 主要数据集:https://huggingface.co/datasets/Mohammadta/BEAM
- 10M对话数据集:https://huggingface.co/datasets/Mohammadta/BEAM-10M
- 本地副本:存储库中的/chats/目录
相关框架
LIGHT是一个认知启发的记忆增强框架,包含三个互补组件:
- 情景记忆:长期记忆索引,检索扩展上下文中的相关信息
- 工作记忆:短期缓冲区,保留最近的对话轮次
- 草稿板:迭代压缩的语义层,跟踪每个轮次后的显著事实
评估结果
在BEAM基准测试中,LIGHT在所有评估模型上都表现出持续改进,相比最强基线实现了3.5%-12.7%的准确率提升。
搜集汇总
数据集介绍

构建方式
在评估大语言模型长程记忆能力的背景下,BEAM数据集通过自动化框架生成多尺度对话,涵盖128K至10M令牌的会话长度,并跨越通用、编程与数学等多个领域。该构建过程采用三阶段流水线:首先规划对话结构,随后生成用户提问,最后合成助手回复,确保对话具备叙事连贯性与主题多样性。每个会话均附带精心设计的探测问题,旨在系统评估模型在长上下文中的记忆表现。
特点
BEAM数据集的特点体现在其规模层级化与能力覆盖全面性上,包含100个对话并细分为四种令牌规模,最高可达千万级别。数据集设计了十类记忆能力探测问题,涵盖矛盾消解、事件排序、知识更新等复杂认知任务。统计数据显示,不同规模的对话在消息数量、问答轮次等维度呈现渐进式增长,为研究长程记忆衰减现象提供了结构化实验基础。
使用方法
使用BEAM数据集时,研究者可通过Hugging Face平台直接获取预处理的对话数据与探测问题。评估流程包含答案生成与自动评判两个阶段:通过修改环境变量适配长上下文、检索增强或LIGHT等不同推理方法,利用内置脚本运行模型推断;随后采用LLM-as-judge机制对生成答案进行多维度评分。模块化设计支持单独执行数据生成、问题构建或性能评估等子任务,满足差异化研究需求。
背景与挑战
背景概述
BEAM数据集于2025年由Mohammad Tavakoli等学者联合构建,旨在解决大语言模型在长上下文推理任务中的评估瓶颈。传统基准普遍存在叙事连贯性不足、领域覆盖狭窄及任务设计单一等问题,该数据集通过自动生成长达千万标记的多样化对话,系统评估模型在十个维度的记忆能力,为长时记忆研究提供了标准化测试框架。
当前挑战
在解决长时记忆建模问题时,BEAM需应对多轮对话中事件时序推理、矛盾陈述消解等复杂认知任务;构建过程中面临超长文本生成的结构一致性维护、跨领域话题的语义连贯性保障,以及千万级标记规模下探测问题自动生成的精度控制等工程挑战。
常用场景
经典使用场景
在自然语言处理领域,长文本理解能力是评估大语言模型性能的关键维度。BEAM数据集通过构建包含128K至10M令牌的多尺度对话,系统评估模型在长上下文环境中的记忆保持与推理能力。其经典应用场景聚焦于测试模型对跨越数千轮对话的连贯性维护、实体关系追踪以及时序逻辑推理等核心任务,为长文本理解研究提供了标准化评估框架。
解决学术问题
该数据集有效解决了长对话系统中存在的三大核心问题:传统基准测试缺乏叙事连贯性、领域覆盖狭窄以及任务设计单一化。通过设计十类记忆能力探针问题,包括矛盾消解、事件排序、知识更新等维度,BEAM为研究社区提供了系统评估长时记忆机制的实验平台,推动了对话系统认知架构的理论发展。
衍生相关工作
基于BEAM数据集衍生的经典工作包括LIGHT认知记忆框架,该框架通过模拟人类记忆系统,构建了包含情景记忆、工作记忆和语义草稿的三重架构。后续研究在此基础上发展了动态记忆检索、分层压缩等创新方法,持续推动着长上下文建模技术的前沿探索。
以上内容由遇见数据集搜集并总结生成



