MemoryCode

github2025-02-24 更新2025-02-27 收录

下载链接：

https://github.com/for-ai/MemoryCode

下载链接

链接失效反馈

官方服务：

资源简介：

MemoryCode是一个通过对话模板、提示生成和对话生成三个阶段生成的数据集，用于评估大型语言模型在多轮编码交互中的表现。

MemoryCode is a dataset generated via three stages: dialogue template design, prompt generation, and dialogue generation, aimed at evaluating the performance of large language models (LLMs) in multi-turn coding interactions.

创建时间：

2025-02-18

原始信息汇总

MemoryCode数据集概述

基本概念

对话(Dialogue)：由多个**会话(Sessions)**组成，每个会话包含多个轮次。
指令(Instruction)：导师在会话中引入的编码指令，学员在生成代码时必须遵循。形式上是编码指令、Python对象、正则表达式和评估查询的四元组。
填充物(Filler)：与编码指令无关的主题。

数据集生成

生成阶段：
- 模板生成
- 提示生成
- 对话生成
关键文件：
- topics.json：包含所有pivots、fillers、names和personas的列表。
- generate_template.py：生成对话模板。
- generate_prompt.py：生成提示文件。
- generate_dialogue.py：使用LLM生成对话。
生成命令：
- 运行scripts/generate_dataset.sh生成与论文相同配置的数据集。

评估方法

模型输出生成：
- 运行scripts/generate_model_output.sh生成模型输出。
评估命令：
- python code/evaluate_model_output.py --dialogue_dir dataset --model_output_dir outputs/gpt-4o

引用信息

bibtex @article{rakotonirina2025tools, title={From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions}, author={Rakotonirina, Nathana{"e}l Carraz and Hamdy, Mohammed and Campos, Jon Ander and Weber, Lucas and Testoni, Alberto and Fadaee, Marzieh and Pezzelle, Sandro and Del Tredici, Marco}, journal={arXiv preprint arXiv:2502.13791}, year={2025} }

搜集汇总

数据集介绍

构建方式

MemoryCode数据集的构建过程分为三个阶段：模板生成、提示生成、对话生成。首先，通过`topics.json`文件提供的数据，`generate_template.py`脚本生成对话模板。随后，`generate_prompt.py`脚本基于模板生成对应的提示文件，最后利用`generate_dialogue.py`脚本将这些提示输入到大型语言模型中以生成对话。

使用方法

使用MemoryCode数据集，首先需要通过`scripts/generate_dataset.sh`脚本来生成数据集。评估模型输出时，可运行`scripts/generate_model_output.sh`脚本，并利用`evaluate_model_output.py`脚本对模型输出进行评分。例如，评估gpt-4o模型输出，需执行指定的Python命令，传入对话目录和模型输出目录作为参数。

背景与挑战

背景概述

MemoryCode数据集，旨在为编程对话研究提供支持，特别是在对话中记忆编码指令的应用。该数据集由一系列对话组成，每段对话包含多个会话，每个会话由多个回合构成。该数据集的创建分为模板生成、提示生成和对话生成三个阶段，涉及关键术语如指令、编程对象、正则表达式和评估查询等。MemoryCode数据集的构建，始于研究人员对于编程对话中如何有效传递和记忆编码指令这一核心问题的深入探讨，自诞生以来，为编程对话系统的设计与优化提供了重要的实验基础，对相关领域产生了显著影响。

当前挑战

MemoryCode数据集面临的挑战主要包括：如何精确地识别并生成符合编程指令的对话；在对话中保持对先前列出的编码指令的记忆；以及如何有效评估模型在遵循编程指令方面的表现。构建过程中，数据集生成涉及到复杂的模板和提示机制，需要确保生成的对话既符合编程实践，又能够模拟真实对话环境。此外，评价模型的输出也需开发特定的脚本和评估方法，以确保评估的准确性和公正性。

常用场景

经典使用场景

在编程教学与评估领域，MemoryCode数据集的典型应用场景在于模拟编程对话，以辅助机器学习模型理解和生成符合特定编码指令的代码。该数据集通过构建包含多个对话回合的会话，为模型训练提供了丰富的上下文信息，从而促进模型在接收到编码指令时能够生成正确的代码。

解决学术问题

MemoryCode数据集解决了编程教育中自动辅导与即时反馈的难题，为研究者提供了评估机器学习模型在理解复杂编码指令方面的基准。它通过模拟真实的学生与导师之间的对话，帮助学术界深入探索编程对话的生成和理解，从而提升了编程辅助系统的智能化水平。

实际应用

实际应用中，MemoryCode数据集可用于构建智能编程助手，为编程学习者提供实时的编码指导和错误修正。此外，它还能够支持教育平台进行教学效果的量化评估，优化学习流程，提高学习效率。

数据集最近研究