LONGMEMEVAL

Name: LONGMEMEVAL
Creator: 腾讯AI实验室西雅图分部
Published: 2024-10-15 01:59:44
License: 暂无描述

arXiv2024-10-15 更新2024-10-16 收录

下载链接：

https://github.com/xiaowu0162/LongMemEval

下载链接

链接失效反馈

官方服务：

资源简介：

LONGMEMEVAL是由腾讯AI实验室西雅图分部创建的一个综合基准数据集，旨在评估聊天助手在长期交互中的记忆能力。该数据集包含500个高质量问题，覆盖信息提取、跨会话推理、时间推理、知识更新和拒绝回答等五种核心记忆能力。数据集的内容通过多轮任务导向的用户-AI对话生成，历史长度可自由配置，提供了约115k和1.5M tokens的标准设置。创建过程中采用了属性控制的流水线，确保对话历史的连贯性和可扩展性。LONGMEMEVAL的应用领域主要集中在个性化和可靠的对话AI系统，旨在解决长期交互中的记忆和推理问题。

LONGMEMEVAL is a comprehensive benchmark dataset developed by the Seattle Branch of Tencent AI Lab, designed to evaluate the memory capabilities of chat assistants during long-term interactions. This dataset includes 500 high-quality questions covering five core memory capabilities: information extraction, cross-session reasoning, temporal reasoning, knowledge update, and refusal to answer. The dataset content is generated via multi-turn task-oriented user-AI dialogues, with freely configurable conversation history lengths, and provides standard settings with approximately 115k and 1.5M tokens. An attribute-controlled pipeline was adopted during its creation to ensure the coherence and scalability of the conversation history. The application scenarios of LONGMEMEVAL mainly focus on personalized and reliable conversational AI systems, aiming to address the memory and reasoning challenges in long-term interactions.

提供机构：

腾讯AI实验室西雅图分部

创建时间：

2024-10-15

原始信息汇总

LongMemEval 数据集概述

数据集简介

LongMemEval 是一个综合、具有挑战性和可扩展的基准测试数据集，用于测试聊天助手的长时记忆能力。该数据集包含500个高质量问题，用于测试以下五种核心长时记忆能力：

信息提取
多会话推理
知识更新
时间推理
拒绝回答

数据集结构

数据集包含三个文件：

longmemeval_s.json: 包含约115k个token的聊天历史记录，适用于Llama 3。
longmemeval_m.json: 每个聊天历史记录包含约500个会话。
longmemeval_oracle.json: 仅包含证据会话的聊天历史记录。

每个文件包含500个评估实例，每个实例包含以下字段：

question_id: 问题的唯一ID。
question_type: 问题类型，包括single-session-user, single-session-assistant, single-session-preference, temporal-reasoning, knowledge-update, multi-session。如果question_id以_abs结尾，则为abstention问题。
question: 问题内容。
answer: 模型预期的答案。
question_date: 问题的日期。
haystack_session_ids: 历史会话的ID列表（按时间戳排序）。
haystack_dates: 历史会话的时间戳列表。
haystack_sessions: 用户-助手聊天历史会话的实际内容列表。每个会话包含多个轮次，每个轮次包含role和content字段。对于包含所需证据的轮次，额外提供has_answer: true字段。
answer_session_ids: 代表证据会话的会话ID列表。

数据集下载

数据集可以从以下链接下载：

环境设置

推荐使用conda环境进行项目设置。具体步骤请参考README文件中的详细说明。

数据集评估

用户可以通过提供的评估脚本对系统输出进行评估。评估脚本将生成评估日志文件，并计算平均分数。

引用

如果使用该数据集，请引用以下文献：

@artical{wu2024longmemeval, title={LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory}, author={Di Wu and Hongwei Wang and Wenhao Yu and Yuwei Zhang and Kai-Wei Chang and Dong Yu}, year={2024}, eprint={2410.10813}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.10813}, }

搜集汇总

数据集介绍

构建方式

LONGMEMEVAL 数据集通过精心设计的流程构建，旨在评估聊天助手在长期交互中的记忆能力。该数据集包含500个高质量的人工策划问题，嵌入在可自由扩展的用户-助手聊天历史中。每个问题都要求从多轮任务导向的用户-AI对话中提取信息，这些对话由大型语言模型模拟并经过人工编辑。数据集的设计借鉴了“大海捞针”测试，通过属性控制的流水线生成连贯、可扩展且带有时间戳的聊天历史，确保聊天系统在动态交互中进行记忆和回答问题。

特点

LONGMEMEVAL 数据集具有多个显著特点。首先，它涵盖了五个核心的长期记忆能力：信息提取、多会话推理、时间推理、知识更新和拒绝回答。其次，数据集中的问题类型多样，包括单会话用户信息提取、单会话助手信息提取、单会话偏好测试、多会话推理、知识更新和时间推理等。此外，数据集的聊天历史长度可自由配置，提供了两种标准设置以供一致性比较。最后，数据集的构建方式确保了高难度和现实性，使得现有系统在长期记忆任务中表现出显著的性能下降。

使用方法

LONGMEMEVAL 数据集的使用方法包括对聊天助手的长期记忆能力进行全面评估。研究者可以通过该数据集测试系统在信息提取、多会话推理、时间推理、知识更新和拒绝回答等方面的表现。数据集提供了详细的构建流程和评估指标，支持研究者进行深入分析和优化。此外，数据集的开源代码和实验代码可在GitHub上获取，便于未来的研究和系统开发。

背景与挑战

背景概述

近年来，大型语言模型（LLM）驱动的聊天助手系统通过集成记忆组件，能够跟踪用户与助手的聊天历史，从而实现更准确和个性化的响应。然而，这些系统在持续交互中的长期记忆能力仍未得到充分探索。为此，LONGMEMEVAL数据集应运而生，由UCLA、腾讯AI实验室和UC San Diego的研究人员共同开发，旨在评估聊天助手在长期交互中的记忆能力。该数据集包含500个精心设计的问题，嵌入在可自由扩展的用户与助手聊天历史中，涵盖信息提取、多会话推理、时间推理、知识更新和拒绝回答五个核心记忆能力。LONGMEMEVAL的推出，标志着对现有长期记忆系统进行全面评估的重要一步，为个性化和可靠的对话AI铺平了道路。

当前挑战

LONGMEMEVAL数据集面临的挑战主要体现在两个方面。首先，解决领域问题的挑战，即评估聊天助手在长期交互中的记忆能力，包括信息提取、多会话推理、时间推理、知识更新和拒绝回答。其次，构建过程中的挑战，如如何设计一个能够真实反映长期用户-AI交互的基准，以及如何确保数据集的可扩展性和一致性。此外，现有基准在评估长期记忆能力时存在局限性，如仅关注人类-人类对话或忽略任务导向对话，导致交互历史通常较短且不可配置，限制了挑战的难度。LONGMEMEVAL通过提供一个全面、具有挑战性和可扩展的基准，填补了这一空白。

常用场景

经典使用场景

LONGMEMEVAL 数据集的经典使用场景在于评估聊天助手在长期交互中的记忆能力。该数据集通过模拟多轮用户与助手的对话，测试助手在信息提取、跨会话推理、时间推理、知识更新和拒绝回答等方面的表现。通过这些测试，研究者可以评估和优化聊天助手在处理长期交互中的记忆机制，确保其在持续对话中能够准确、个性化地响应用户需求。

实际应用

在实际应用中，LONGMEMEVAL 数据集有助于开发更智能、更可靠的聊天助手。例如，在心理咨询或秘书服务等需要长期积累用户知识的场景中，优化后的聊天助手能够更好地记住用户的背景和偏好，提供更准确的建议和帮助。此外，该数据集还可以用于训练和评估商业聊天助手，提升其在实际服务中的表现，增强用户满意度。

衍生相关工作

LONGMEMEVAL 数据集的发布催生了一系列相关的经典工作。例如，研究者们基于该数据集提出了多种优化记忆设计的方法，如会话分解、事实增强的关键扩展和时间感知的查询扩展，这些方法显著提高了记忆召回和下游问答的准确性。此外，该数据集还促进了对话系统在长期记忆能力上的研究，推动了诸如记忆增强语言模型和上下文压缩技术的发展，为聊天助手的进一步优化提供了理论和实践基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集