KaLM-Embedding/LMEB
收藏Hugging Face2026-05-07 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/KaLM-Embedding/LMEB
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于评估长时记忆和文本检索性能的基准测试集合,包含多个子数据集,涵盖对话、情景记忆和程序性任务。具体包括LoCoMo、ConvoMem、LongMemEval、MemBench、REALTALK、TMD、EPBench、KnowMeBench、DeepPlanning、Gorilla和MemGovern等部分,涉及单跳、多跳、对抗性、开放域、时间推理、知识更新、情感分析等多种任务类型。数据集设计用于测试模型在长时记忆、嵌入表示和检索能力方面的表现,适用于自然语言处理中的文本检索任务,数据规模在10万到100万之间,以英语为主。
This dataset is a benchmark collection for evaluating long-horizon memory and text retrieval performance, comprising multiple sub-datasets that cover dialogue, episodic memory, and procedural tasks. It includes components such as LoCoMo, ConvoMem, LongMemEval, MemBench, REALTALK, TMD, EPBench, KnowMeBench, DeepPlanning, Gorilla, and MemGovern, involving various task types like single-hop, multi-hop, adversarial, open-domain, temporal reasoning, knowledge updating, and emotion analysis. Designed to test models capabilities in long-term memory, embedding representations, and retrieval, it is suitable for text retrieval tasks in natural language processing, with a data size between 100K and 1M entries, primarily in English.
提供机构:
KaLM-Embedding
搜集汇总
数据集介绍

构建方式
大语言模型在长程对话与复杂记忆检索任务中面临严峻挑战,LMEB(Long-horizon Memory Embedding Benchmark)数据集应运而生,旨在系统性地评估模型在超长文本上下文中的记忆与检索能力。该数据集精心整合了来自对话、情景记忆与程序性记忆三大领域的多个子数据集,包括LoCoMo、ConvoMem、LongMemEval、MemBench、REALTALK、TMD、EPBench、KnowMeBench、DeepPlanning、Gorilla及MemGovern。每个子数据集均遵循统一的查询-语料库-候选答案三元组结构,以JSONL格式存储,并通过细粒度的split划分,覆盖不同认知难度层级、不同时间跨度以及不同语义类型的检索任务,从而构建起一个全面且标准化的长程记忆评估基准。
特点
LMEB数据集独具匠心之处在于其多维度的认知覆盖与精细化的任务设计。在对话记忆方面,它囊括了单跳、多跳、对与时间推理等多种逻辑类型,并引入对抗性干扰样本以测试模型的鲁棒性。在情景记忆领域,EPBench与KnowMeBench分别侧重事件细节的检索和叙事性心理深度的回溯,并提供了不同生成模型(如Claude与GPT-4o)和不同故事长度的语料变体,用以探究模型瓶颈。此外,DeepPlanning与Gorilla等子集则聚焦于程序性记忆,考察模型对多步规划与API调用的理解。这种融合了语义、时间与逻辑层次的丰富架构,使得LMEB成为评估长上下文文本嵌入与记忆检索能力的标杆性资源。
使用方法
研究人员可通过HuggingFace Datasets库方便地加载LMEB数据集,使用load_dataset函数并指定相应的config_name即可获取特定子集。例如,加载LoCoMo的查询数据可选用'LoCoMo_queries'配置,并进一步通过split参数选择'single_hop'、'adversarial'等子集。每个数据条目均包含query、corpus与candidates字段,分别对应待检索的问题、文本库与候选答案集。在评估中,模型需基于给定的query,从corpus中检索出最相关的文本片段,并利用candidates进行精确匹配或排序评估。此设计使LMEB可直接融入现有的检索式评测流程,便于复现和对比不同嵌入模型在长程记忆任务上的性能。
背景与挑战
背景概述
LMEB(Long Memory and Episodic Benchmark)是由多机构研究团队于近年构建的大规模文本检索基准,旨在系统评估模型在长时对话、情节记忆与程序记忆场景下的信息溯源能力。该数据集整合了LoCoMo、ConvoMem、LongMemEval、MemBench、REALTALK、TMD、EPBench、KnowMeBench、DeepPlanning、Gorilla及MemGovern等十余个子集,覆盖对话记忆、情节事件、时序推理与程序性知识等多维任务,为长程记忆与检索领域的标准化评估提供了关键基础设施,显著推动了对话AI与记忆增强模型的发展。
当前挑战
该数据集所解决的领域核心挑战在于,现有检索基准多聚焦短文本或静态知识,难以衡量模型在跨会话、多跳推理、时序演变及情节细节检索中的记忆完备性。构建过程中,团队面临多源数据整合的异构性问题,需统一不同子集的分裂格式、查询类型与评估协议,确保公平比较。此外,模拟真实对话中的信息更新、情绪变化与抽象思考等复杂场景,对语料生成的生态效度与标注一致性提出了严苛要求,平衡查询的难度梯度与任务覆盖度亦是一大考验。
常用场景
经典使用场景
在对话系统与长期记忆建模的交汇领域,LMEB(Long-horizon Memory Embedding Benchmark)数据集提供了极具代表性的评测框架。其最经典的使用场景在于评估和比较各类模型在长时对话中记忆检索与推理的综合能力。研究者通常利用该数据集的多样化子集,如LoCoMo、ConvoMem、LongMemEval等,针对单跳与多跳推理、对抗性干扰、时序推理以及知识更新等核心维度进行系统性验证。通过这些精心设计的查询-语料对,能够精准衡量模型从冗长对话流中提取、关联并利用既往信息的能力,是检验长期记忆嵌入质量的权威基准。
解决学术问题
LMEB数据集的问世解决了长期困扰对话系统研究的核心困境:缺乏一个覆盖多维记忆能力的标准化评测体系。该数据集首次系统性地整合了对话记忆(LoCoMo、ConvoMem、LongMemEval、MemBench、REALTALK、TMD)、情景记忆(EPBench、KnowMeBench)与程序性记忆(DeepPlanning、Gorilla、MemGovern)的评估需求。它从学术层面明确了长期记忆的三个关键维度:记忆的精确性与时长特性、跨事件的情景推理能力、以及面向任务的知识检索与规划能力。这一架构极大地推动了对话系统中记忆机制的研究,使研究者能够量化评估不同记忆架构(如检索增强、压缩式长时上下文)的优劣,为构建具有持久记忆能力的智能对话体奠定了方法论基础。
衍生相关工作
LMEB数据集的发布催生了一系列富有影响力的衍生研究。在其基础上,学术界涌现了多种针对长时记忆的模型优化策略,例如基于记忆剪枝与重要性感知的上下文压缩技术、以及分区式记忆向量存储检索机制。同时,该数据集也推动了检索增强语言模型(RALM)的专项改进,研究者针对LMEB中对抗性查询和多跳推理子集,设计了更鲁棒的证据组合与聚合方法。在架构创新层面,涌现了带有显式情景记忆槽位的对话系统,以及融合了程序性记忆推理的动作规划模型。这些衍生工作反过来又丰富了LMEB的评测维度,形成了一个相互促进的研究生态。
以上内容由遇见数据集搜集并总结生成



