LoCoMo-10, LongMemEval, Evolving Events

github2026-04-08 更新2026-04-04 收录

下载链接：

https://github.com/FlowElement-ai/mflow-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

1. LoCoMo-10：包含1,540个问题的多会话问答基准数据集，用于评估M-flow与Mem0系统的LLM-Judge准确率、BLEU-1和F1分数。2. LongMemEval：包含50个问题的长期记忆问答基准数据集，用于评估M-flow与Graphiti系统的LLM-Judge准确率、F1和BLEU-1分数。3. Evolving Events：包含100个问题的多跳推理基准数据集，用于评估M-flow、Cognee和Graphiti系统的人类相似正确性。

1. LoCoMo-10: A multi-session question answering benchmark dataset consisting of 1,540 questions, designed to evaluate the LLM-Judge accuracy, BLEU-1 and F1 scores of M-flow and Mem0 systems. 2. LongMemEval: A long-term memory question answering benchmark dataset consisting of 50 questions, designed to evaluate the LLM-Judge accuracy, F1 and BLEU-1 scores of M-flow and Graphiti systems. 3. Evolving Events: A multi-hop reasoning benchmark dataset consisting of 100 questions, designed to evaluate the human-like correctness of M-flow, Cognee and Graphiti systems.

创建时间：

2026-03-31

原始信息汇总

MFlow Benchmarks 数据集概述

数据集简介

MFlow Benchmarks 是一个用于评估AI智能体情景记忆系统的对比性基准测试套件。该仓库包含三个基准测试数据集及其评估结果。

基准测试构成

该套件包含以下三个基准测试数据集：

LoCoMo-10 (Multi-Session Conversational QA)
- 问题数量：1,540
- 测试系统：M-flow 与 Mem0
- 关键指标：LLM-Judge 准确率
LongMemEval (Long-term Memory QA)
- 问题数量：50
- 测试系统：M-flow 与 Graphiti
- 关键指标：LLM-Judge 准确率
Evolving Events (Multi-hop Reasoning)
- 问题数量：100
- 测试系统：M-flow、Cognee 与 Graphiti
- 关键指标：类人正确率

评估结果摘要

LoCoMo-10 结果

系统	LLM-Judge	BLEU-1	F1
M-flow	76.5%	0.422	0.503
Mem0 Cloud (测试版)	40.4%	0.186	0.196
Mem0 (已发布版)	66.9%	—	—

LongMemEval 结果

系统	LLM-Judge	F1	BLEU-1
M-flow	80%	0.405	0.295
Graphiti	64%	0.372	0.289

Evolving Events 结果

配置	M-flow 类人正确率	Cognee 类人正确率	Graphiti 类人正确率
k=5, gpt-5-mini	95.8%	88.6%	66.3%
k=5, gpt-5.4	96.4%	89.6%	63.0%
k=10, gpt-5-mini	96.8%	91.2%	69.2%
k=10, gpt-5.4	97.7%	93.0%	68.4%

注：类人正确率由 DirectLLM 评判。

评估方法

LLM-Judge：使用 GPT-4 级别模型进行二元（正确/错误）评估。
类人正确率：使用 DirectLLM 评判语义准确性。
DeepEval 正确率：基于 GEval 的评估。
BLEU-1 / F1：词元级别的精确率和召回率指标。

引用信息

若在研究中使用了这些基准测试，请引用： bibtex @software{mflow_benchmarks_2026, title = {MFlow Benchmarks}, author = {MFlow Team}, year = {2026}, url = {https://github.com/mflow-ai/mflow-benchmarks} }

许可证

本项目采用 MIT 许可证，详情见 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

在人工智能代理的叙事记忆系统评估领域，LoCoMo-10、LongMemEval与Evolving Events三个基准数据集的构建遵循了严谨的工程学范式。每个数据集均围绕特定的认知任务设计：LoCoMo-10聚焦于多轮会话问答，包含1,540个问题；LongMemEval针对长期记忆检索，包含50个问题；Evolving Events则专注于多跳推理，包含100个问题。其构建过程涉及任务场景的定义、高质量问题-答案对的精心编制，并依托大型语言模型作为评判者，以确保评估内容的有效性与挑战性。

使用方法

使用该基准套件的方法清晰而直接。研究人员可通过访问项目仓库，依据各数据集目录下的详细说明与脚本进行操作。例如，对于LoCoMo-10，执行相应的bash脚本即可启动评估流程；LongMemEval则需要预先安装指定的Python依赖。评估过程将自动运行预定义的测试，并输出涵盖LLM-Judge准确率、拟人化正确性及传统文本相似度在内的多项结果，便于对不同叙事记忆系统进行系统化的性能比较与分析。

背景与挑战

背景概述

在人工智能代理领域，构建具备长期记忆与情景理解能力的系统是核心研究议题。MFlow Benchmarks作为一套综合性评估套件，由MFlow团队于2026年创建，旨在系统性地评测不同情景记忆系统的性能。该套件整合了LoCoMo-10、LongMemEval与Evolving Events三个基准数据集，分别针对多轮对话问答、长期记忆检索以及多跳推理等关键任务，通过引入LLM-Judge、类人正确性等先进评估指标，为衡量AI代理在复杂、动态环境中的认知能力提供了标准化框架，显著推动了记忆增强型人工智能系统的研究与开发进程。

当前挑战

该数据集所应对的领域挑战在于，传统人工智能系统往往难以有效处理跨越长时间跨度、涉及多轮交互或事件演变的复杂信息。具体而言，如何使AI代理在持续对话中保持上下文一致性、从海量历史记忆中精准检索相关信息，以及进行涉及时序与因果关系的多步推理，均是亟待突破的技术瓶颈。在数据集构建过程中，挑战同样显著，包括设计能够真实模拟人类记忆与推理模式的多样化任务场景、确保评估问题具备足够的复杂性与区分度，以及建立可靠且高效的自动化评估机制，以替代成本高昂的人工标注，从而保证评测结果的客观性与可复现性。

常用场景

经典使用场景

在人工智能代理的交互式系统中，LoCoMo-10、LongMemEval和Evolving Events数据集构成了评估情景记忆能力的核心基准。这些数据集通过多轮对话问答、长期记忆检索以及多跳推理任务，模拟了智能体在复杂、动态环境中的认知过程。研究者利用这些基准，能够系统性地测试和比较不同记忆系统在维持对话连贯性、处理长序列信息以及进行逻辑推断方面的性能，从而推动智能代理向更具适应性和理解力的方向发展。

解决学术问题

这些数据集有效应对了人工智能领域关于持续性学习和知识整合的挑战。它们为评估记忆系统的有效性提供了标准化框架，解决了如何量化智能体在长时间跨度内保持信息一致性、进行上下文关联推理以及适应事件演变的难题。通过引入LLM-Judge、类人正确性等评估指标，数据集促进了记忆模型在语义准确性和逻辑合理性方面的研究，为构建更可靠、可解释的AI系统奠定了实证基础。

实际应用

在实际应用层面，这些基准支撑着对话系统、个性化助手以及自主决策代理的开发与优化。例如，在客户服务场景中，系统需要借助长期记忆来理解用户的历史偏好和问题脉络；在模拟训练环境中，智能体则需通过事件演化推理来预测动态变化并制定策略。数据集提供的评估结果直接指导工程实践，帮助开发者筛选和调优记忆模块，以提升AI应用在真实世界中的交互质量和任务完成效率。

数据集最近研究