BEAM
收藏arXiv2025-10-31 更新2025-11-04 收录
下载链接:
https://github.com/mohammadtavakoli78/BEAM
下载链接
链接失效反馈官方服务:
资源简介:
BEAM数据集是一个包含100个对话和2000个问题的数据集,旨在评估大型语言模型(LLM)在长期记忆和长期推理方面的能力。数据集由阿尔伯塔大学和马萨诸塞大学阿默斯特分校的研究团队创建,对话长度从100K到10M Tokens不等,涵盖了多个领域,并配有针对各种记忆能力的问题,如矛盾解决、事件排序、指令遵循等。数据集通过自动生成对话和人工验证问题的方式构建,旨在解决现有基准测试中存在的连贯性差、领域窄、测试任务简单等问题。
The BEAM dataset is a curated collection of 100 dialogues and 2000 questions, developed by research teams from the University of Alberta and the University of Massachusetts Amherst to evaluate the long-term memory and long-term reasoning capabilities of Large Language Models (LLMs). The dialogues range in length from 100K to 10M Tokens, cover multiple domains, and are paired with questions targeting a wide range of memory-related abilities including contradiction resolution, event ordering, instruction following, and more. Constructed through automatic dialogue generation and manual verification of the questions, this dataset aims to address the limitations of existing benchmark datasets, such as poor coherence, narrow domain coverage, and overly simplistic test tasks.
提供机构:
阿尔伯塔大学, 马萨诸塞大学阿默斯特分校
创建时间:
2025-10-31
原始信息汇总
BEAM数据集概述
数据集简介
BEAM是一个用于评估语言模型长期记忆能力的综合数据集。该数据集包含多尺度对话(128K、500K、1M和10M tokens),涵盖通用、编程和数学等多个领域,旨在评估十种不同的记忆能力。
数据集规模
- 总对话数:100个对话
- 规模分布:
- 128K tokens:20个对话
- 500K tokens:35个对话
- 1M tokens:35个对话
- 10M tokens:10个对话
对话统计特征
| 对话规模 | 用户消息数 | 助手消息数 | 助手提问数 | 后续问题数 | 对话轮次 |
|---|---|---|---|---|---|
| 128K | 144 | 144 | 27 | 216 | 107 |
| 500K | 544 | 544 | 79 | 51 | 416 |
| 1M | 1,067 | 1,067 | 105 | 120 | 842 |
| 10M | 10,435 | 10,435 | 1,151 | 1,528 | 7,757 |
评估能力维度
- 弃权:评估模型在缺乏证据时是否拒绝回答
- 矛盾解决:检测和调和跨多个对话轮次的不一致陈述
- 事件排序:识别和重建对话中信息演变的序列
- 信息提取:从长历史中回忆实体和事实细节
- 指令遵循:在长上下文中持续遵守用户指定的约束
- 知识更新:随着新事实出现而修订存储的事实
- 多会话推理:整合跨多个非相邻对话段的证据进行推理
- 偏好遵循:适应不断变化的偏好生成个性化响应
- 摘要:抽象和压缩对话内容的能力
- 时序推理:关于显性和隐性时间关系的推理
数据获取方式
- Hugging Face平台:
- BEAM(128K、500K、1M对话):https://huggingface.co/datasets/Mohammadta/BEAM
- BEAM-10M(10M token对话):https://huggingface.co/datasets/Mohammadta/BEAM-10M
- 本地存储:仓库中的/chats/目录
相关论文
- 标题:Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs
- arXiv链接:https://arxiv.org/abs/2510.27246
搜集汇总
数据集介绍

构建方式
BEAM数据集的构建采用了自动化对话生成框架,通过设计层次化的对话计划作为叙事骨架。该框架首先生成包含领域、主题和用户属性的对话种子,随后递归分解为时序连贯的子计划,每个子计划包含具体情节和时序锚点。用户话语基于子计划分批生成,确保话题连贯性;助手响应则通过角色扮演框架迭代产生,结合问题检测与跟进模块模拟真实双向交互。最后,针对十种记忆能力自动生成探测问题,并经过人工验证确保质量,形成包含100段对话(10万至1000万词符)及2000个问题的基准数据集。
特点
BEAM数据集的核心特点在于其规模可扩展性与记忆能力评估的全面性。对话长度覆盖10万至1000万词符,突破现有基准的上下文限制,且通过单一用户连续叙事保持话题连贯性,避免人工拼接导致的逻辑断裂。其探测问题系统评估十种记忆维度,包括传统的信息提取、多跳推理,以及新增的矛盾解析、事件排序和指令跟随等复杂能力。数据集涵盖编程、数学、健康等19个领域,结合用户画像与社会关系网络,增强了对话的真实性与评估场景的多样性。
使用方法
使用BEAM数据集时,研究者可通过其标准化流程评估大语言模型的长期记忆能力。首先加载对话历史与对应探测问题,将问题作为额外对话轮次输入模型,生成回答后采用金块评估法进行量化评分:人工分解标准答案为原子性语义单元,由LLM评判器根据回答的覆盖度分配0-1分,事件排序能力则使用Kendall tau-b系数衡量序列准确性。该数据集支持与检索增强生成及长上下文模型等基线方法对比,并可结合LIGHT等记忆增强框架验证模型在极端上下文下的性能提升。
背景与挑战
背景概述
BEAM数据集由Mohammad Tavakoli等人于2025年提出,旨在解决大型语言模型在长上下文对话中记忆能力评估的不足。该数据集由阿尔伯塔大学和马萨诸塞大学阿默斯特分校的研究团队开发,核心研究问题聚焦于如何系统评估模型在长达千万令牌对话中的记忆与推理能力。BEAM通过自动生成连贯、主题多样的对话及配套探测问题,推动了长程记忆研究的发展,对提升对话系统的实用性和可靠性具有重要影响力。
当前挑战
BEAM数据集面临的挑战包括两方面:在领域问题层面,需解决长上下文对话中信息提取、矛盾消解、事件排序等复杂记忆任务的评估难题;在构建过程中,需克服生成长度达千万令牌对话的叙事连贯性维护、多样化主题覆盖以及高质量探测问题自动生成的困难,同时确保人类标注验证的准确性与效率。
常用场景
经典使用场景
在长上下文对话系统评估领域,BEAM数据集通过生成高达1000万令牌的连贯对话序列,为测试大语言模型的长期记忆能力提供了标准化基准。该数据集模拟真实人机交互场景,涵盖编程、数学、医疗等多元领域,通过精心设计的探测问题评估模型在信息提取、矛盾消解等十个维度的表现。其独特价值在于突破了传统基准在叙事连贯性和主题多样性方面的局限,为衡量模型在超长对话中的记忆保持能力提供了可靠依据。
衍生相关工作
该数据集催生了记忆增强架构的系列创新,如基于注意力稀疏化的长序列建模方法、结合外部知识库的混合记忆系统。在评估范式层面,研究者受BEAM启发提出了动态记忆强度测试框架和跨模态长期记忆基准。工业界则衍生出面向垂直领域的记忆压缩技术,如法律文档分析中的关键事实提取系统,以及代码协作场景下的项目上下文保持工具,推动了长上下文技术在具体应用场景的落地深化。
数据集最近研究
最新研究方向
在长上下文语言模型领域,BEAM数据集推动了针对大语言模型长期记忆能力的前沿研究。当前研究聚焦于构建超长对话场景下的记忆评估框架,通过自动生成千万级token的连贯对话与多样化探测问题,系统评估模型在矛盾消解、事件排序、指令跟随等复杂记忆维度的表现。该方向与认知科学深度融合,借鉴人类记忆机制提出的LIGHT框架整合情景记忆、工作记忆与外部便签系统,显著提升了模型在长对话中的信息保持与推理能力。随着多轮对话应用场景的扩展,该数据集为突破现有模型在超长上下文中的记忆瓶颈提供了关键评测基准与方法论支撑,对构建具备持久记忆的对话系统具有重要指导意义。
相关研究论文
- 1Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs阿尔伯塔大学, 马萨诸塞大学阿默斯特分校 · 2025年
以上内容由遇见数据集搜集并总结生成



