BEAM

github2025-11-11 更新2025-11-22 收录

下载链接：

https://github.com/mohammadtavakoli78/BEAM

下载链接

链接失效反馈

官方服务：

资源简介：

BEAM是一个用于评估语言模型长期记忆能力的综合数据集。它包含多尺度对话（128K、500K、1M和10M tokens），涵盖通用、编程和数学等多个领域，旨在评估十种不同的记忆能力。为评估这些能力，为每个对话生成了一组探测问题。

BEAM is a comprehensive dataset for evaluating the long-term memory capabilities of language models. It includes multi-scale dialogues (128K, 500K, 1M, and 10M tokens) covering multiple domains such as general scenarios, programming, and mathematics, aiming to assess ten distinct memory capabilities. To evaluate these capabilities, a set of probing questions is generated for each dialogue.

创建时间：

2025-10-29

原始信息汇总

BEAM数据集概述

数据集简介

BEAM是一个用于评估语言模型长期记忆能力的综合性数据集，包含多尺度对话（128K、500K、1M和10M tokens），涵盖通用、编程和数学等多个领域，旨在评估十种不同的记忆能力。

数据集规模

总对话数：100个对话
规模分布：
- 128K tokens：20个对话
- 500K tokens：35个对话
- 1M tokens：35个对话
- 10M tokens：10个对话

对话统计特征

对话规模	用户消息数	助手消息数	助手提问数	后续问题数	对话轮次
128K	144	144	27	216	107
500K	544	544	79	51	416
1M	1,067	1,067	105	120	842
10M	10,435	10,435	1,151	1,528	7,757

探测问题类型

弃权：评估模型在缺乏证据时是否拒绝回答
矛盾解决：检测和调和远距离对话轮次中的不一致陈述
事件排序：识别和重建对话中信息演变的顺序
信息提取：从长历史中回忆实体和事实细节
指令遵循：检查在长上下文中持续遵守用户指定约束的能力
知识更新：评估随着新事实出现而修订存储信息的能力
多会话推理：整合多个非相邻对话段落的证据进行推理
偏好遵循：捕捉适应不断变化偏好的个性化响应
摘要：评估抽象和压缩对话内容的能力
时序推理：测试关于显性和隐性时间关系的推理能力

数据获取

主要数据集：https://huggingface.co/datasets/Mohammadta/BEAM
10M对话数据集：https://huggingface.co/datasets/Mohammadta/BEAM-10M
本地副本：存储库中的/chats/目录

评估结果

在BEAM基准测试中，LIGHT在所有评估模型上都表现出持续改进，相比最强基线实现了3.5%-12.7%的准确率提升。

搜集汇总

数据集介绍

构建方式

在评估大语言模型长程记忆能力的背景下，BEAM数据集通过自动化框架生成多尺度对话，涵盖128K至10M令牌的会话长度，并跨越通用、编程与数学等多个领域。该构建过程采用三阶段流水线：首先规划对话结构，随后生成用户提问，最后合成助手回复，确保对话具备叙事连贯性与主题多样性。每个会话均附带精心设计的探测问题，旨在系统评估模型在长上下文中的记忆表现。

特点

BEAM数据集的特点体现在其规模层级化与能力覆盖全面性上，包含100个对话并细分为四种令牌规模，最高可达千万级别。数据集设计了十类记忆能力探测问题，涵盖矛盾消解、事件排序、知识更新等复杂认知任务。统计数据显示，不同规模的对话在消息数量、问答轮次等维度呈现渐进式增长，为研究长程记忆衰减现象提供了结构化实验基础。

使用方法

使用BEAM数据集时，研究者可通过Hugging Face平台直接获取预处理的对话数据与探测问题。评估流程包含答案生成与自动评判两个阶段：通过修改环境变量适配长上下文、检索增强或LIGHT等不同推理方法，利用内置脚本运行模型推断；随后采用LLM-as-judge机制对生成答案进行多维度评分。模块化设计支持单独执行数据生成、问题构建或性能评估等子任务，满足差异化研究需求。

背景与挑战

背景概述

BEAM数据集于2025年由Mohammad Tavakoli等学者联合构建，旨在解决大语言模型在长上下文推理任务中的评估瓶颈。传统基准普遍存在叙事连贯性不足、领域覆盖狭窄及任务设计单一等问题，该数据集通过自动生成长达千万标记的多样化对话，系统评估模型在十个维度的记忆能力，为长时记忆研究提供了标准化测试框架。

当前挑战

在解决长时记忆建模问题时，BEAM需应对多轮对话中事件时序推理、矛盾陈述消解等复杂认知任务；构建过程中面临超长文本生成的结构一致性维护、跨领域话题的语义连贯性保障，以及千万级标记规模下探测问题自动生成的精度控制等工程挑战。

常用场景

经典使用场景

在自然语言处理领域，长文本理解能力是评估大语言模型性能的关键维度。BEAM数据集通过构建包含128K至10M令牌的多尺度对话，系统评估模型在长上下文环境中的记忆保持与推理能力。其经典应用场景聚焦于测试模型对跨越数千轮对话的连贯性维护、实体关系追踪以及时序逻辑推理等核心任务，为长文本理解研究提供了标准化评估框架。

解决学术问题

该数据集有效解决了长对话系统中存在的三大核心问题：传统基准测试缺乏叙事连贯性、领域覆盖狭窄以及任务设计单一化。通过设计十类记忆能力探针问题，包括矛盾消解、事件排序、知识更新等维度，BEAM为研究社区提供了系统评估长时记忆机制的实验平台，推动了对话系统认知架构的理论发展。

衍生相关工作

基于BEAM数据集衍生的经典工作包括LIGHT认知记忆框架，该框架通过模拟人类记忆系统，构建了包含情景记忆、工作记忆和语义草稿的三重架构。后续研究在此基础上发展了动态记忆检索、分层压缩等创新方法，持续推动着长上下文建模技术的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集