CodeMMLU

Hugging Face2024-10-14 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Fsoft-AIC/CodeMMLU

下载链接

链接失效反馈

官方服务：

资源简介：

CodeMMLU是一个综合性的基准测试，旨在评估大型语言模型（LLMs）在编码和软件知识方面的能力。它基于多项选择题问答（MCQA）的结构，涵盖了广泛的编程任务和领域，包括代码生成、缺陷检测、软件工程原则等。数据集包含多个子集，分为语法测试、语义测试和实际问题测试。每个子集都有不同的配置名称、特征和测试集信息。

创建时间：

2024-10-14

原始信息汇总

CodeMMLU 数据集概述

基本信息

许可证: MIT
数据集大小: 1K < n < 10K
任务类别: 问答
数据集名称: CodeMMLU

数据集配置

api_frameworks

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 122681
  - num_examples: 701
下载大小: 56028
数据集大小: 122681

code_completion

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 189048
  - num_examples: 164
下载大小: 73744
数据集大小: 189048

code_repair

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 65548
  - num_examples: 76
下载大小: 29650
数据集大小: 65548

dbms_sql

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 126254
  - num_examples: 393
下载大小: 54904
数据集大小: 126254

defect_detection

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 7216369
  - num_examples: 6006
下载大小: 1785863
数据集大小: 7216369

fill_in_the_middle

特征:
- task_id: string
- question: string
- choices: sequence of string
- problem_description: string
分割:
- test:
  - num_bytes: 2283250
  - num_examples: 2129
下载大小: 968137
数据集大小: 2283250

others

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 402643
  - num_examples: 1371
下载大小: 179513
数据集大小: 402643

programming_syntax

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 1818106
  - num_examples: 6220
下载大小: 604058
数据集大小: 1818106

software_principles

特征:
- task_id: string
- question: string
- choices: sequence of string
分割:
- test:
  - num_bytes: 970764
  - num_examples: 2853
下载大小: 372821
数据集大小: 970764

数据文件路径

api_frameworks: api_frameworks/test-*
code_completion: code_completion/test-*
code_repair: code_repair/test-*
dbms_sql: dbms_sql/test-*
defect_detection: defect_detection/test-*
fill_in_the_middle: fill_in_the_middle/test-*
others: others/test-*
programming_syntax: programming_syntax/test-*
software_principles: software_principles/test-*

搜集汇总

数据集介绍

构建方式

CodeMMLU数据集通过多任务基准测试的方式构建，旨在评估大型语言模型在编码和软件知识领域的理解能力。该数据集基于多项选择题（MCQA）的结构，涵盖了代码生成、缺陷检测、软件工程原理等多个编程任务和领域。每个子集均经过精心设计，确保能够全面反映模型在不同编程场景下的表现。

使用方法

使用CodeMMLU数据集时，研究者可以通过加载不同的子集来评估模型在特定编程任务中的表现。每个子集均以测试集的形式提供，包含任务ID、问题描述和选项。研究者可以利用这些数据进行模型训练和评估，并通过与官方提供的排行榜进行对比，了解模型在同类任务中的表现水平。

背景与挑战

背景概述

CodeMMLU数据集由FSoft-AI4Code团队于2024年推出，旨在评估大型语言模型（LLMs）在编程和软件知识领域的理解能力。该数据集基于多项选择题回答（MCQA）的结构，涵盖了代码生成、缺陷检测、软件工程原则等多个编程任务和领域。CodeMMLU的创建标志着在编程语言模型评估领域的一个重要进展，为研究人员提供了一个全面的基准，以测试和比较不同模型在复杂编程任务中的表现。该数据集的发布不仅推动了编程语言模型的研究，还为软件工程和人工智能的交叉领域提供了新的研究方向。

当前挑战

CodeMMLU数据集在解决编程语言模型评估问题时面临多重挑战。首先，编程任务的多样性和复杂性要求数据集能够涵盖广泛的编程语言和框架，这对数据集的构建和标注提出了高要求。其次，确保数据集的准确性和代表性是一个关键挑战，特别是在涉及代码生成和缺陷检测等任务时，需要精确的标注和验证。此外，数据集的规模和质量直接影响模型的训练效果，如何在有限资源下构建大规模、高质量的数据集是一个亟待解决的问题。最后，数据集的动态更新和维护也是一个挑战，以应对不断变化的编程语言和技术环境。

常用场景

经典使用场景

CodeMMLU数据集广泛应用于评估大型语言模型在代码理解和软件知识领域的表现。通过多选问答的形式，该数据集涵盖了代码生成、缺陷检测、软件工程原则等多个编程任务，为研究者提供了一个全面的基准测试平台。

解决学术问题

CodeMMLU数据集解决了在代码理解和软件知识领域中缺乏统一评估标准的问题。通过提供多样化的编程任务和领域，该数据集帮助研究者更准确地评估和比较不同模型的性能，推动了代码理解领域的研究进展。

实际应用

在实际应用中，CodeMMLU数据集被用于开发和优化代码生成工具、缺陷检测系统以及自动化软件工程解决方案。通过该数据集的测试，开发者能够识别和提升模型在实际编程任务中的表现，从而提高软件开发的效率和质量。

数据集最近研究