DOMAINEVAL

Name: DOMAINEVAL
Creator: 中国科学院软件研究所中文信息处理实验室
Published: 2024-08-24 00:33:58
License: 暂无描述

arXiv2024-08-24 更新2024-08-27 收录

下载链接：

https://domaineval.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

DOMAINEVAL数据集由中国科学院软件研究所中文信息处理实验室创建，包含2454个子项，覆盖计算、网络、基本操作、系统、可视化和密码学六个领域。数据集从GitHub上精选的15个代码仓库中自动构建，每个子项包括参考代码、描述和上下文。创建过程采用全自动化的测试引导方法，确保数据集的实用性和新颖性。该数据集主要用于评估和提升大型语言模型在特定领域代码生成任务中的性能。

The DOMAINEVAL dataset was created by the Chinese Information Processing Laboratory of the Institute of Software, Chinese Academy of Sciences. It contains 2454 subitems covering six domains: computing, networking, basic operations, systems, visualization, and cryptography. The dataset is automatically constructed from 15 carefully selected code repositories on GitHub. Each subitem includes reference code, a description, and context. A fully automated test-guided method was adopted during the dataset creation process to ensure its practicality and novelty. This dataset is primarily used to evaluate and enhance the performance of large language models (LLMs) in domain-specific code generation tasks.

提供机构：

中国科学院软件研究所中文信息处理实验室

创建时间：

2024-08-24

搜集汇总

数据集介绍

构建方式

DOMAINEVAL数据集的构建方式是通过从GitHub上收集特定领域的原始代码片段，然后将其系统地转化为适合LLM评估的基准数据。这个过程涉及三个关键步骤：领域仓库收集、测试-方法匹配与选择、指令生成。首先，从GitHub上收集来自选定领域的原始代码数据，并将其分为函数代码和测试用例。然后，将每个函数代码与其对应的测试用例进行匹配，并过滤掉无法执行或没有有效测试函数的代码片段。最后，利用LLM生成每个代码片段的指令，并与函数代码和测试用例一起形成最终的基准数据。

特点

DOMAINEVAL数据集的特点包括：1) 多领域覆盖：数据集涵盖了计算、网络、基本操作、系统、可视化和密码学六个领域的代码，能够全面评估LLMs的编码能力；2) 自动化构建：数据集采用自动化的测试引导构建算法，能够从代码仓库中自动生成格式化的评估主题，提高了数据集的构建效率和可扩展性；3) 完整性：数据集包含2454个代码主题和5892个测试用例，能够充分评估LLMs的编码能力。

使用方法

DOMAINEVAL数据集的使用方法如下：1) 评估LLMs的编码能力：通过将LLMs与DOMAINEVAL数据集中的代码主题进行匹配，并使用Pass@k指标评估LLMs生成的代码片段的功能正确性；2) 分析LLMs的领域偏置：通过比较LLMs在不同领域中的表现，分析LLMs在不同领域的优势和不足，并针对不足之处进行改进；3) 构建自定义领域基准：利用DOMAINEVAL的自动化构建算法，可以方便地构建其他领域的基准数据，用于评估和提升LLMs的编码能力。

背景与挑战

背景概述

在大语言模型（LLM）在软件开发等领域取得革命性进展的背景下，评估这些模型在代码生成能力方面的重要性日益凸显。DOMAINEVAL数据集应运而生，旨在全面评估LLMs在不同领域代码生成的能力。该数据集由中国科学院软件研究所、中国科学院大学和香港科技大学的研究人员于2024年创建，通过自动化的方式从代码仓库中构建，涵盖计算、网络、基础操作、系统、可视化和密码学六大领域，共计2454个代码主题和5892个测试案例。DOMAINEVAL数据集的创建不仅填补了现有代码生成评估中领域特定任务缺失的空白，而且为未来LLMs在代码生成任务中的改进提供了方向。

当前挑战

DOMAINEVAL数据集的构建和评估面临着多重挑战。首先，LLMs在计算任务上的表现相对较好，但在密码学和系统编码任务上的表现明显不足，这表明LLMs在处理特定领域的代码生成任务时仍存在显著差距。其次，随着生成样本数量的增加，LLMs的整体性能有所提高，但领域偏差却可能增加，这提示我们需要在提高性能的同时，也要注意减少模型在不同领域的表现差异。此外，构建过程中还遇到了如何从复杂、高度封装的代码中提取合适的函数代码和测试案例，以及如何确保代码的执行性和安全性等挑战。DOMAINEVAL数据集的创建为解决这些挑战提供了自动化测试引导的构建流程，并为未来研究和改进提供了宝贵的经验。

常用场景

经典使用场景

DOMAINEVAL数据集主要用于评估大型语言模型（LLMs）在多个编程领域的代码生成能力。它涵盖了计算、网络、基本操作、系统、可视化和密码学六个流行的领域，每个领域都有相应的参考代码、描述和测试用例。通过评估LLMs在这些领域的表现，DOMAINEVAL可以帮助研究人员了解LLMs在不同领域的优势和劣势，并为未来的研究改进提供方向。

衍生相关工作

DOMAINEVAL数据集的衍生相关工作包括但不限于：1. 针对不同编程领域的代码生成基准；2. 自动化构建代码基准的流程和方法；3. 评估和改进LLMs的代码生成能力的技术和策略。

数据集最近研究