five

LONGMEMEVAL|对话AI数据集|记忆评估数据集

收藏
arXiv2024-10-15 更新2024-10-16 收录
对话AI
记忆评估
下载链接:
https://github.com/xiaowu0162/LongMemEval
下载链接
链接失效反馈
资源简介:
LONGMEMEVAL是由腾讯AI实验室西雅图分部创建的一个综合基准数据集,旨在评估聊天助手在长期交互中的记忆能力。该数据集包含500个高质量问题,覆盖信息提取、跨会话推理、时间推理、知识更新和拒绝回答等五种核心记忆能力。数据集的内容通过多轮任务导向的用户-AI对话生成,历史长度可自由配置,提供了约115k和1.5M tokens的标准设置。创建过程中采用了属性控制的流水线,确保对话历史的连贯性和可扩展性。LONGMEMEVAL的应用领域主要集中在个性化和可靠的对话AI系统,旨在解决长期交互中的记忆和推理问题。
提供机构:
腾讯AI实验室西雅图分部
创建时间:
2024-10-15
原始信息汇总

LongMemEval 数据集概述

数据集简介

LongMemEval 是一个综合、具有挑战性和可扩展的基准测试数据集,用于测试聊天助手的长时记忆能力。该数据集包含500个高质量问题,用于测试以下五种核心长时记忆能力:

  • 信息提取
  • 多会话推理
  • 知识更新
  • 时间推理
  • 拒绝回答

数据集结构

数据集包含三个文件:

  • longmemeval_s.json: 包含约115k个token的聊天历史记录,适用于Llama 3。
  • longmemeval_m.json: 每个聊天历史记录包含约500个会话。
  • longmemeval_oracle.json: 仅包含证据会话的聊天历史记录。

每个文件包含500个评估实例,每个实例包含以下字段:

  • question_id: 问题的唯一ID。
  • question_type: 问题类型,包括single-session-user, single-session-assistant, single-session-preference, temporal-reasoning, knowledge-update, multi-session。如果question_id_abs结尾,则为abstention问题。
  • question: 问题内容。
  • answer: 模型预期的答案。
  • question_date: 问题的日期。
  • haystack_session_ids: 历史会话的ID列表(按时间戳排序)。
  • haystack_dates: 历史会话的时间戳列表。
  • haystack_sessions: 用户-助手聊天历史会话的实际内容列表。每个会话包含多个轮次,每个轮次包含rolecontent字段。对于包含所需证据的轮次,额外提供has_answer: true字段。
  • answer_session_ids: 代表证据会话的会话ID列表。

数据集下载

数据集可以从以下链接下载:

环境设置

推荐使用conda环境进行项目设置。具体步骤请参考README文件中的详细说明。

数据集评估

用户可以通过提供的评估脚本对系统输出进行评估。评估脚本将生成评估日志文件,并计算平均分数。

引用

如果使用该数据集,请引用以下文献:

@artical{wu2024longmemeval, title={LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory}, author={Di Wu and Hongwei Wang and Wenhao Yu and Yuwei Zhang and Kai-Wei Chang and Dong Yu}, year={2024}, eprint={2410.10813}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.10813}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
LONGMEMEVAL 数据集通过精心设计的流程构建,旨在评估聊天助手在长期交互中的记忆能力。该数据集包含500个高质量的人工策划问题,嵌入在可自由扩展的用户-助手聊天历史中。每个问题都要求从多轮任务导向的用户-AI对话中提取信息,这些对话由大型语言模型模拟并经过人工编辑。数据集的设计借鉴了“大海捞针”测试,通过属性控制的流水线生成连贯、可扩展且带有时间戳的聊天历史,确保聊天系统在动态交互中进行记忆和回答问题。
特点
LONGMEMEVAL 数据集具有多个显著特点。首先,它涵盖了五个核心的长期记忆能力:信息提取、多会话推理、时间推理、知识更新和拒绝回答。其次,数据集中的问题类型多样,包括单会话用户信息提取、单会话助手信息提取、单会话偏好测试、多会话推理、知识更新和时间推理等。此外,数据集的聊天历史长度可自由配置,提供了两种标准设置以供一致性比较。最后,数据集的构建方式确保了高难度和现实性,使得现有系统在长期记忆任务中表现出显著的性能下降。
使用方法
LONGMEMEVAL 数据集的使用方法包括对聊天助手的长期记忆能力进行全面评估。研究者可以通过该数据集测试系统在信息提取、多会话推理、时间推理、知识更新和拒绝回答等方面的表现。数据集提供了详细的构建流程和评估指标,支持研究者进行深入分析和优化。此外,数据集的开源代码和实验代码可在GitHub上获取,便于未来的研究和系统开发。
背景与挑战
背景概述
近年来,大型语言模型(LLM)驱动的聊天助手系统通过集成记忆组件,能够跟踪用户与助手的聊天历史,从而实现更准确和个性化的响应。然而,这些系统在持续交互中的长期记忆能力仍未得到充分探索。为此,LONGMEMEVAL数据集应运而生,由UCLA、腾讯AI实验室和UC San Diego的研究人员共同开发,旨在评估聊天助手在长期交互中的记忆能力。该数据集包含500个精心设计的问题,嵌入在可自由扩展的用户与助手聊天历史中,涵盖信息提取、多会话推理、时间推理、知识更新和拒绝回答五个核心记忆能力。LONGMEMEVAL的推出,标志着对现有长期记忆系统进行全面评估的重要一步,为个性化和可靠的对话AI铺平了道路。
当前挑战
LONGMEMEVAL数据集面临的挑战主要体现在两个方面。首先,解决领域问题的挑战,即评估聊天助手在长期交互中的记忆能力,包括信息提取、多会话推理、时间推理、知识更新和拒绝回答。其次,构建过程中的挑战,如如何设计一个能够真实反映长期用户-AI交互的基准,以及如何确保数据集的可扩展性和一致性。此外,现有基准在评估长期记忆能力时存在局限性,如仅关注人类-人类对话或忽略任务导向对话,导致交互历史通常较短且不可配置,限制了挑战的难度。LONGMEMEVAL通过提供一个全面、具有挑战性和可扩展的基准,填补了这一空白。
常用场景
经典使用场景
LONGMEMEVAL 数据集的经典使用场景在于评估聊天助手在长期交互中的记忆能力。该数据集通过模拟多轮用户与助手的对话,测试助手在信息提取、跨会话推理、时间推理、知识更新和拒绝回答等方面的表现。通过这些测试,研究者可以评估和优化聊天助手在处理长期交互中的记忆机制,确保其在持续对话中能够准确、个性化地响应用户需求。
实际应用
在实际应用中,LONGMEMEVAL 数据集有助于开发更智能、更可靠的聊天助手。例如,在心理咨询或秘书服务等需要长期积累用户知识的场景中,优化后的聊天助手能够更好地记住用户的背景和偏好,提供更准确的建议和帮助。此外,该数据集还可以用于训练和评估商业聊天助手,提升其在实际服务中的表现,增强用户满意度。
衍生相关工作
LONGMEMEVAL 数据集的发布催生了一系列相关的经典工作。例如,研究者们基于该数据集提出了多种优化记忆设计的方法,如会话分解、事实增强的关键扩展和时间感知的查询扩展,这些方法显著提高了记忆召回和下游问答的准确性。此外,该数据集还促进了对话系统在长期记忆能力上的研究,推动了诸如记忆增强语言模型和上下文压缩技术的发展,为聊天助手的进一步优化提供了理论和实践基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录