five

MEMORYCODE

收藏
arXiv2025-02-19 更新2025-02-21 收录
下载链接:
https://github.com/for-ai/MemoryCode
下载链接
链接失效反馈
官方服务:
资源简介:
MEMORYCODE是一个合成的多会话对话历史数据集,旨在测试大型语言模型在长期交互中跟踪和执行简单编码指令的能力。数据集由多轮对话组成,其中对话者(导师和被指导者)讨论与编码相关的规则和任务。该数据集的特点是包含大量的干扰信息,这些信息与任务无关,但嵌入在对话中,模拟现实工作中的环境。MEMORYCODE通过挑战模型在长对话中检索和更新相关信息的能力,来评估模型在多会话交互中的表现。

MEMORYCODE is a synthetic multi-session dialogue history dataset intended to test the capacity of large language models to track and execute simple coding instructions during long-term interactive scenarios. The dataset comprises multi-turn dialogues where two participants, a tutor and a mentee, discuss coding-related rules and tasks. A prominent feature of this dataset is the incorporation of extensive irrelevant distracting information embedded within the dialogues, which simulates real-world work environments. MEMORYCODE assesses models' performance in multi-session interactions by challenging their ability to retrieve and update relevant information across lengthy dialogues.
提供机构:
巴塞罗那自治大学, 阿姆斯特丹大学, Cohere, Cohere For AI, Cohere For AI Community
创建时间:
2025-02-19
搜集汇总
数据集介绍
main_image_url
构建方式
MEMORYCODE数据集通过模拟实际工作环境中人类之间的多轮对话历史来构建。数据集以Python编程为背景,模拟了导师与学徒之间的对话,其中导师向学徒传授编码实践信息,这些信息在对话历史中与大量无关内容交织在一起。数据集的生成分为两步:首先创建包含种子(指令、填充内容、人物角色和姓名)的模板,然后使用LLM生成对话历史。模板生成过程中,系统会随机选择参数,如会话数量、包含指令的会话百分比、每个会话中的指令数量等。实际对话历史生成时,系统会为每个会话构建提示,包括公司、导师、学徒、指令和填充内容,并使用LLM生成对话。
特点
MEMORYCODE数据集的特点在于其模拟了现实世界中人类工作环境中的对话场景,特别是编码实践中的信息传递和更新。数据集包含了不同长度和复杂度的对话历史,以及简单的编码任务,要求模型在多轮对话中跟踪和执行指令。此外,数据集还包含了大量与任务无关的填充内容,以模拟现实世界中的干扰信息。 MEMORYCODE数据集的另一个特点是它使用了合成数据,这有助于控制影响模型性能的因素,同时减少了成本和隐私问题。
使用方法
使用MEMORYCODE数据集时,研究者可以将模型置于不同的评估设置中,以测试模型在处理多轮对话历史时的能力。评估设置包括指令(单个指令)、会话(整个会话)和对话历史(所有会话的串联)。研究者可以提供不同的输入,如单个指令、整个会话或整个对话历史,以测试模型在不同情境下的表现。评估模型的表现时,使用正则表达式来检查模型是否正确地应用了指令。研究者可以根据模型在各个评估设置中的表现来评估模型的长时记忆能力和推理能力。
背景与挑战
背景概述
在大型语言模型(LLMs)在解决孤立问题时表现出色的大背景下,MEMORYCODE数据集应运而生,旨在探索LLMs在长期交互中的协作能力。该数据集由Nathanaël Carraz Rakotonirina等人创建,并发表于2025年,旨在测试LLMs在跟踪和执行简单编码指令方面的能力,即使在无关信息的干扰下也能做到这一点。 MEMORYCODE模拟了真实的工作环境,其中信息不断变化,需要LLMs能够从多轮对话中检索并整合信息,以在未来完成任务。该数据集的引入对于推动LLMs在实际应用中的发展具有重要意义。
当前挑战
MEMORYCODE数据集带来的主要挑战包括:1)LLMs在处理长期交互时的信息跟踪和整合能力不足,即使是最先进的模型如GPT-4o在处理跨越多个会话的指令时也会出现性能下降;2)构建过程中需要克服的挑战包括如何模拟真实的工作环境,以及如何在保证信息准确性的同时,确保LLMs能够在复杂的对话历史中检索并整合信息。
常用场景
经典使用场景
MEMORYCODE数据集主要用于评估大型语言模型(LLMs)在多会话编码交互中的表现。该数据集模拟了一个真实的办公环境,其中模型需要追踪并执行简单的编码指令,同时排除无关信息的干扰。MEMORYCODE通过提供一系列对话历史记录,包括导师与学员之间的多轮对话,来测试模型对指令的长期记忆和执行能力。这些对话历史记录中包含了大量的无关信息,使得模型必须具备从复杂对话中提取关键信息的能力,并在未来的编码任务中应用这些信息。
衍生相关工作
MEMORYCODE数据集的发布促进了一系列相关经典工作的发展。例如,一些研究工作开始探索如何通过改进LLMs的长期记忆和推理能力来解决MEMORYCODE中揭示的问题。这些研究工作主要集中在开发新的模型架构、训练策略和评估方法上,旨在提高LLMs在长时间交互中的表现。此外,MEMORYCODE数据集还为其他领域的LLMs研究提供了重要的参考和启示,例如多轮对话系统、对话生成和问答系统等。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在解决独立问题方面的能力不断增强,研究人员开始探索LLMs在长期交互中的协作能力。MEMORYCODE数据集旨在测试LLMs在多会话对话中跟踪和执行简单编码指令的能力,并模拟现实场景。研究结果表明,即使是像GPT-4o这样的最先进模型,当指令分布在多个会话中时,其性能也会下降。这表明当前LLMs在长期交互中协作的能力存在基本限制。因此,研究重点转向开发专门的机制来增强LLMs的能力,例如改进长期记忆保留策略、前瞻性记忆或额外的推理机制。MEMORYCODE数据集为评估和测试这些方法提供了一个稳健的基准,对于推动LLMs在长期协作能力方面的发展具有重要意义。
相关研究论文
  • 1
    From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions巴塞罗那自治大学, 阿姆斯特丹大学, Cohere, Cohere For AI, Cohere For AI Community · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作