CONVCODEWORLD

Name: CONVCODEWORLD
Creator: 首尔国立大学, Snowflake AI Research
Published: 2025-02-27 15:54:32
License: 暂无描述

arXiv2025-02-27 更新2025-03-01 收录

下载链接：

https://huggingface.co/spaces/ConvCodeWorld/ConvCodeWorld

下载链接

链接失效反馈

官方服务：

资源简介：

CONVCODEWORLD是由首尔国立大学和Snowflake AI Research创建的一个新颖的可重现环境，旨在对交互式多轮代码生成进行基准测试。该数据集包含9种不同的反馈组合，通过结合编译反馈、执行反馈（包括部分和全部测试覆盖）以及由GPT-4o生成的初学者和专家级别的口头反馈，来模拟多种真实的交互式代码生成场景。

CONVCODEWORLD is a novel reproducible environment created by Seoul National University and Snowflake AI Research, designed to benchmark interactive multi-turn code generation. This dataset includes 9 distinct feedback combinations that simulate a wide range of realistic interactive code generation scenarios by integrating compilation feedback, execution feedback (including partial and full test coverage), as well as beginner and expert-level verbal feedback generated by GPT-4o.

提供机构：

首尔国立大学, Snowflake AI Research

创建时间：

2025-02-27

搜集汇总

数据集介绍

构建方式

CONVCODEWORLD 数据集构建了一个交互式代码生成的基准环境，通过模拟9种不同的交互式代码生成场景，并结合三种类型的反馈：编译反馈、具有不同测试覆盖率的执行反馈以及由 GPT-4o 生成的不同专业知识水平的口头反馈。该数据集旨在评估大型语言模型（LLM）在多轮交互中的表现。

特点

CONVCODEWORLD 数据集的特点在于其多样性和可重复性。它涵盖了多种反馈组合，能够模拟真实世界中的各种代码生成场景。此外，该数据集还提供了一个静态版本 CONVCODEBENCH，它使用预生成的反馈日志，无需实时生成口头反馈，同时保持了与 CONVCODEWORLD 的高度相关性。

使用方法

CONVCODEWORLD 和 CONVCODEBENCH 可以用于评估 LLM 在多轮交互式代码生成中的表现。用户可以将代码生成模型与不同的反馈组合一起运行，并使用评估指标（如 Pass@1、MRR 和 Recall）来衡量模型的表现。此外，用户还可以使用 CONVCODEBENCH 作为 CONVCODEWORLD 的成本效益替代方案，以便在不需要实时反馈生成的情况下进行评估。

背景与挑战

背景概述

在大型语言模型（LLMs）在代码生成方面展现出巨大潜力的背景下，CONVCODEWORLD数据集被提出以填补现有代码生成基准在模拟多轮交互中的多样反馈方面的空白。该数据集由Snowflake AI Research和首尔国立大学的Hojae Han, Seung-won Hwang, Rajhans Samdani和Yuxiong He等研究人员在2025年ICLR会议上发表。CONVCODEWORLD旨在评估LLMs在多轮交互式代码生成环境中的性能，通过模拟九种不同的交互式代码生成场景，并系统地结合三种类型的反馈：编译反馈、具有不同测试覆盖率的执行反馈以及由GPT-4o生成的不同专业知识水平的口头反馈。CONVCODEWORLD的提出对相关领域产生了重要影响，它提供了一个可重复的评估环境，促进了LLMs在代码生成领域的进一步研究和改进。

当前挑战

CONVCODEWORLD数据集面临的主要挑战包括：（1）所解决的领域问题：评估LLMs在多轮交互式代码生成中的性能，特别是在面对多样的反馈情况时；（2）构建过程中所遇到的挑战：生成口头反馈的成本和效率问题。CONVCODEWORLD通过使用GPT-4o模拟人类反馈，实现了成本效益和可重复性，但仍然存在LLM调用成本和延迟的问题。为了解决这个问题，研究人员引入了CONVCODEBENCH，一个使用预生成反馈日志的静态基准，它消除了实时反馈生成的需求，同时保持了与CONVCODEWORLD的高度相关性。

常用场景

经典使用场景

CONVCODEWORLD数据集主要用于评估大型语言模型（LLM）在交互式代码生成任务中的性能。它通过模拟九种不同的交互式代码生成场景，并系统地结合三种类型的反馈（编译反馈、具有不同测试覆盖率的执行反馈以及由GPT-4o生成的不同专业知识水平的口头反馈）来评估LLM在多轮交互中的表现。

实际应用

CONVCODEWORLD数据集的实际应用场景包括评估和改进LLM在代码生成任务中的性能，特别是在需要多轮交互和多样化反馈的场景中。它可以用于软件开发领域，帮助提高代码生成的效率和准确性。此外，CONVCODEBENCH的静态特性使其适用于大规模LLM基准测试，从而降低了成本和提高了效率。

衍生相关工作

CONVCODEWORLD数据集的衍生相关工作包括InterCode和MINT，这两个基准也用于评估LLM在多轮交互中的性能。然而，CONVCODEWORLD提供了更广泛的反馈组合和可重复的环境，使其成为评估LLM性能的更全面的工具。此外，CONVCODEBENCH的引入为LLM基准测试提供了一种成本效益高的静态方法，进一步推动了该领域的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集