LoCoMo Refined

github2026-04-14 更新2026-04-17 收录

下载链接：

https://github.com/mem-eval-suite/LoCoMo_refined

下载链接

链接失效反馈

官方服务：

资源简介：

LoCoMo Refined是对原始LoCoMo基准的系统性重新校准。LoCoMo本身是一个用于长对话记忆的基准，问题集中在时间、事件、人际关系和用户偏好上。其目的是测试在对话变得非常长后，代理或记忆框架是否仍能准确回忆内容。此版本专注于使LLM Judger更像一个真实的评估者，并清理数据集本身，使基准更加可靠。

LoCoMo Refined is a systematic recalibration of the original LoCoMo benchmark. LoCoMo itself is a benchmark for long-context conversation memory, with questions focusing on time, events, interpersonal relationships, and user preferences. Its purpose is to test whether an agent or memory framework can still accurately recall content after the conversation has grown extremely lengthy. This revised version focuses on making the LLM Judger more closely resemble real human evaluators, as well as cleaning up the dataset itself to make the benchmark more reliable.

创建时间：

2026-04-11

原始信息汇总

LoCoMo Refined 数据集概述

数据集简介

LoCoMo Refined 是对原始 LoCoMo 基准的系统性重新校准。LoCoMo 本身是一个长对话记忆基准，其问题围绕时间、事件、人际关系和用户偏好展开，旨在测试智能体或记忆框架在对话变得非常长后是否仍能准确回忆信息。

主要改进

1. 更严格的评判器

核心原则：包容但不矛盾，完整但不越界。
具体要求：
- 答案必须覆盖所有必需信息，而不仅仅是部分。
- 不能添加没有证据支持的内容。
- 时间信息必须严格对齐，不能通过模糊转换或无依据的额外细节来掩盖。
人类对齐实验：在300个人工标注样本上，使用 Qwen/Qwen3-14B 和优化后的提示，与人类标注的一致性准确率达到 86.33%；而原始 LoCoMo 设置（GPT-4o-mini 和原始提示）仅达到 43.67%。

2. 更干净的数据集

修订过程：使用AI进行初步筛选，并由5名人工标注员逐一审核LoCoMo中的核心记忆评估问题。
修订规模：共修订了 337 个存在逻辑或事实问题的样本。
问题类型：包括模糊的问题措辞、颠倒的主谓关系以及与原始对话不一致的时间信息。
公开数据集：位于 ./data/raw/locomo_refined.json，包含 1382 个问题。
QA模式：统一为 answer 字段，列出可接受的黄金答案列表。

数据集目标

LoCoMo Refined 旨在使评分更具意义。通过更严格的评判器和更干净的问题集，以往可能被忽略的问题（如时间漂移、冗余信息和无依据的额外细节）现在能够被更可靠地识别。

评估运行说明

环境要求

Python 3.11+
需安装 openai 和 tenacity 包

预测文件准备

默认读取的预测文件路径：./outputs/predictions.jsonl
文件格式为JSONL，每行至少包含 qa_id 和 predicted_answer 两个字段。
qa_id 值需与 ./data/public/questions.jsonl 中的ID匹配。

评估指标运行

词汇评估：运行 ./scripts/run_eval.sh --metrics f1 bleu
LLM评判器评估：
- 需设置环境变量 EVALUATOR_MODEL=qwen3-14b（官方评判LLM为 Qwen3-14B）。
- 运行 ./scripts/run_eval.sh --metrics llm f1 bleu --llm-judge refined（使用优化后的评判器）。
- --llm-judge 参数可选 refined（默认，更严格）或 original（原始，更宽松）。

输出文件

评估输出默认写入：

./outputs/predictions_scored.jsonl
./outputs/predictions_scored_summary.json
./outputs/predictions_scored_summary.md

许可证与修改说明

许可证文件：LICENSE.txt
修改说明文件：NOTICE

搜集汇总

数据集介绍

构建方式

在长对话记忆评估领域，LoCoMo Refined数据集通过系统性重构原始LoCoMo基准而形成。其构建过程聚焦于提升评估的严谨性，核心举措包括优化LLM评判器与清洗问题集。评判器的设计遵循“包容而不矛盾、完整而不越界”的原则，通过精细化提示词确保答案需覆盖全部必要信息、禁止无证据的额外内容，并严格对齐时间细节。同时，借助AI初步筛选与五名人工标注者的逐项核查，修订了原始数据中337个存在逻辑或事实瑕疵的样本，从而消除了问题表述模糊、主谓关系错位及时间信息不一致等干扰因素。

特点

该数据集的核心特点体现在其评估标准的精确性与数据质量的可靠性上。经过重构的评判器在人类对齐实验中展现出高达86.33%的一致性准确率，显著超越了原有设置的43.67%，这意味着评估边界更贴近人类共识。数据层面，经过清洗的1382个问题样本消除了内在歧义与错误，使基准不再依赖偶然性，而能真实反映系统记忆能力。此外，数据集保留了新旧两种评判器实现，支持研究者在严格与宽松标准间进行对比分析，为长时记忆机制的优化提供了更清晰的诊断工具。

使用方法

使用该数据集进行评估时，需预先配置Python 3.11及以上环境并安装必要依赖。预测文件需以JSONL格式准备，其中每个样本的qa_id须与公开问题集严格对应。评估流程支持词汇级指标（如F1、BLEU）与LLM评判两种模式：运行词汇评估可直接执行脚本并指定相应指标；若启用LLM评判，则需配置官方推荐的Qwen3-14B模型或兼容的API端点，并通过参数选择使用重构后的严格评判器或原始宽松版本。结果将自动输出至指定目录，涵盖详细评分与摘要报告，便于研究者系统分析模型在长对话记忆任务中的实际表现。

背景与挑战

背景概述

在人工智能领域，长对话记忆能力是评估智能代理系统性能的关键维度。LoCoMo Refined数据集作为LoCoMo基准的系统性重新校准版本，由研究团队于近期发布，旨在解决原始基准在评估长对话记忆时存在的严谨性不足问题。该数据集聚焦于时间、事件、人际关系和用户偏好等核心记忆要素，通过构建严格的评估框架，测试智能体或记忆系统在超长对话后仍能准确回忆信息的能力。其创建推动了记忆评估标准向更高可靠性与人类共识对齐，为相关领域提供了更可信的测量工具。

当前挑战

该数据集致力于应对长对话记忆评估中的核心挑战：如何确保评估结果真实反映系统对已知信息的精确回忆，而非模糊近似。具体而言，原始基准因评判标准过于宽松，导致答案在细节错误或证据不足时仍能通过，掩盖了时间漂移、信息冗余及无依据添加等实际问题。构建过程中，研究团队面临双重挑战：一是设计更具判别力的LLM评判器，需重新定义“无矛盾包容、完整不越界”的评估原则，以严格对齐时间信息与证据支持；二是清理数据集本身，通过人工审核修正逻辑矛盾、表述模糊及事实不一致的样本，以消除基准内部噪声对评估效度的干扰。

常用场景

经典使用场景

在人工智能领域，长对话记忆能力的评估一直是智能体系统发展的核心挑战之一。LoCoMo Refined数据集通过提供系统化的长对话记忆基准测试，被广泛应用于评估各类智能体或记忆框架在长时间对话后对时间、事件、人际关系及用户偏好等关键信息的准确回忆能力。其经典使用场景包括在学术研究中作为标准测试集，用于比较不同记忆增强模型在复杂对话环境下的性能表现，从而推动长上下文处理技术的进步。

实际应用

在实际应用中，LoCoMo Refined数据集为开发具有可靠长时记忆能力的对话智能体提供了关键支持。例如，在客服机器人、个人助理及教育辅导等需要持续交互的场景中，系统必须准确记忆用户历史偏好、事件时间线及复杂关系。该数据集通过严格的评估标准，帮助开发者识别和优化记忆模块中的薄弱环节，确保智能体在真实部署时能避免时间混淆、细节错误等常见问题，从而提升用户体验和系统可靠性。

衍生相关工作

围绕LoCoMo Refined数据集，已衍生出一系列专注于长对话记忆增强的经典研究工作。这些工作主要集中于改进记忆架构的设计，如基于检索的增强记忆网络、时序感知的记忆编码机制，以及结合外部知识库的混合记忆模型。同时，该数据集也催生了针对评判器优化的研究，探索如何通过提示工程或微调方法使大型语言模型更精准地评估记忆准确性，进一步推动了长对话记忆评估范式的标准化与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集