ScenEval

Name: ScenEval
Creator: 牛津布鲁克斯大学工程、计算与数学学院
Published: 2024-06-18 22:02:20
License: 暂无描述

arXiv2024-06-18 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.12635v1

下载链接

链接失效反馈

官方服务：

资源简介：

ScenEval是由牛津布鲁克斯大学工程、计算与数学学院创建的一个大规模Java编程任务数据集，包含12864个任务，涵盖多种编程场景和来源。数据集通过手动和自动方式从教科书、在线学习网站和Stack Overflow论坛中提取，每个任务都附有JSON格式的场景信息作为元数据。ScenEval旨在通过场景化测试评估大型语言模型在代码生成方面的能力，特别关注于解决代码生成的复杂性和性能问题。

ScenEval is a large-scale Java programming task dataset created by the School of Engineering, Computing and Mathematics at Oxford Brookes University. It contains 12,864 tasks covering diverse programming scenarios and sources. The dataset is extracted from textbooks, online learning platforms, and the Stack Overflow forum through both manual and automated methods, with each task accompanied by scenario information in JSON format as metadata. ScenEval aims to evaluate the code generation capabilities of large language models (LLMs) via scenario-based testing, with a particular focus on addressing the complexity and performance issues in code generation.

提供机构：

牛津布鲁克斯大学工程、计算与数学学院

创建时间：

2024-06-18

搜集汇总

数据集介绍

构建方式

ScenEval数据集的构建采用了场景化测试的方法，通过从教科书、在线教程网站和Stack Overflow等来源提取编程任务，并为每个任务附加元数据以表示其所属的场景。具体而言，数据集中的每个任务都包含一个唯一的任务ID、标题、来源、主题、编程语言、版本号、任务描述以及参考解决方案。这些元数据以JSON格式存储，便于后续的过滤和分析。通过使用自动化工具Morphy，研究人员可以根据元数据对任务进行筛选，形成特定场景下的测试集，从而支持对大型语言模型（如ChatGPT）在代码生成任务中的性能评估。

特点

ScenEval数据集的特点在于其多样性和场景化标签。数据集涵盖了12864个Java编程任务，任务来源广泛，包括教科书、在线学习平台和Stack Overflow等。每个任务都附带了详细的元数据，如任务主题、编程语言、参考解决方案以及复杂度指标（如圈复杂度和认知复杂度）。这些元数据使得数据集能够支持场景化的测试和评估，帮助研究人员深入分析模型在不同场景下的表现。此外，数据集还支持通过Morphy工具进行自动化测试和结果分析，进一步提升了其使用价值。

使用方法

ScenEval数据集的使用方法主要围绕场景化测试展开。研究人员可以通过Morphy工具对数据集进行过滤，选择特定场景下的任务进行测试。例如，可以根据任务的主题、复杂度或来源生成不同的测试集。测试过程中，Morphy工具支持自动生成测试代码、执行测试并分析结果。通过这种方式，研究人员可以评估模型在不同场景下的表现，并识别其弱点。此外，数据集还支持对生成代码的复杂度进行分析，帮助研究人员了解模型生成的代码质量。总体而言，ScenEval数据集为代码生成模型的场景化评估提供了一个强大且灵活的工具。

背景与挑战

背景概述

ScenEval数据集由牛津布鲁克斯大学的Debalina Ghosh Paul、Hong Zhu和Ian Bayley等人于2024年提出，旨在为代码生成的场景化评估提供一个基准。该数据集从教科书、在线教程网站和Stack Overflow中提取了12864个Java编程任务，每个任务都附有场景信息的元数据。ScenEval的构建基于数据形态测试方法，通过测试形态（test morphisms）对测试用例进行过滤和组合，形成不同场景的数据集。该数据集的核心研究问题是如何高效构建能够代表多种场景的测试数据集，以评估大语言模型（LLMs）在代码生成任务中的表现。ScenEval的提出填补了现有代码生成基准在场景化测试支持上的空白，为LLMs的性能评估提供了新的视角。

当前挑战

ScenEval数据集在解决代码生成领域的场景化评估问题时面临多重挑战。首先，如何构建能够全面覆盖不同场景的测试数据集是一个核心难题，尤其是在代码生成任务中，场景的多样性和复杂性使得传统测试方法难以直接应用。其次，数据集的构建过程中需要从多个来源（如教科书、在线论坛）提取任务，并为其附加场景元数据，这一过程既耗时又容易引入噪声。此外，评估代码生成模型的性能时，如何定义和量化代码的正确性和复杂性也是一个挑战。ScenEval通过引入数据形态测试工具Morphy，部分解决了这些问题，但仍需进一步优化以支持更广泛的场景和更复杂的评估需求。

常用场景

经典使用场景

ScenEval数据集在代码生成模型的场景化评估中具有经典应用。通过构建包含多种编程任务的基准测试集，并结合元数据对每个测试用例进行标注，ScenEval能够有效支持基于场景的测试。该数据集广泛应用于评估大型语言模型（如ChatGPT）在生成Java代码时的表现，特别是在不同复杂度和主题下的性能差异。通过场景化过滤，研究者可以针对特定编程任务（如多线程、数据结构和递归方法）进行深入分析，从而揭示模型在不同情境下的表现。

解决学术问题

ScenEval数据集解决了代码生成模型评估中的关键问题，即如何构建能够代表多种场景的测试数据集。传统的代码生成基准测试往往缺乏对场景的细致划分，难以全面评估模型在不同情境下的表现。ScenEval通过引入元数据和场景化测试方法，使得研究者能够系统地评估模型在特定场景下的性能。例如，该数据集揭示了ChatGPT在复杂任务（如多线程和递归方法）中的表现显著下降，为模型优化提供了重要依据。

衍生相关工作

ScenEval数据集的推出催生了一系列相关研究工作。例如，研究者基于该数据集开发了自动化测试工具Morphy，支持场景化测试的快速实施和结果分析。此外，ScenEval的元数据结构和场景化测试方法被广泛应用于其他代码生成基准测试的构建中，如CoderEval和ClassEval。这些衍生工作进一步推动了代码生成模型评估领域的发展，为模型性能的全面评估提供了新的方法论和工具支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集