CodeMMLU
收藏Hugging Face2024-10-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Fsoft-AIC/CodeMMLU
下载链接
链接失效反馈官方服务:
资源简介:
CodeMMLU是一个综合性的基准测试,旨在评估大型语言模型(LLMs)在编码和软件知识方面的能力。它基于多项选择题问答(MCQA)的结构,涵盖了广泛的编程任务和领域,包括代码生成、缺陷检测、软件工程原则等。数据集包含多个子集,分为语法测试、语义测试和实际问题测试。每个子集都有不同的配置名称、特征和测试集信息。
创建时间:
2024-10-14
原始信息汇总
CodeMMLU 数据集概述
基本信息
- 许可证: MIT
- 数据集大小: 1K < n < 10K
- 任务类别: 问答
- 数据集名称: CodeMMLU
数据集配置
api_frameworks
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 122681num_examples: 701
- 下载大小: 56028
- 数据集大小: 122681
code_completion
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 189048num_examples: 164
- 下载大小: 73744
- 数据集大小: 189048
code_repair
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 65548num_examples: 76
- 下载大小: 29650
- 数据集大小: 65548
dbms_sql
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 126254num_examples: 393
- 下载大小: 54904
- 数据集大小: 126254
defect_detection
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 7216369num_examples: 6006
- 下载大小: 1785863
- 数据集大小: 7216369
fill_in_the_middle
- 特征:
task_id: stringquestion: stringchoices: sequence of stringproblem_description: string
- 分割:
test:num_bytes: 2283250num_examples: 2129
- 下载大小: 968137
- 数据集大小: 2283250
others
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 402643num_examples: 1371
- 下载大小: 179513
- 数据集大小: 402643
programming_syntax
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 1818106num_examples: 6220
- 下载大小: 604058
- 数据集大小: 1818106
software_principles
- 特征:
task_id: stringquestion: stringchoices: sequence of string
- 分割:
test:num_bytes: 970764num_examples: 2853
- 下载大小: 372821
- 数据集大小: 970764
数据文件路径
- api_frameworks:
api_frameworks/test-* - code_completion:
code_completion/test-* - code_repair:
code_repair/test-* - dbms_sql:
dbms_sql/test-* - defect_detection:
defect_detection/test-* - fill_in_the_middle:
fill_in_the_middle/test-* - others:
others/test-* - programming_syntax:
programming_syntax/test-* - software_principles:
software_principles/test-*
搜集汇总
数据集介绍

构建方式
CodeMMLU数据集通过多任务基准测试的方式构建,旨在评估大型语言模型在编码和软件知识领域的理解能力。该数据集基于多项选择题(MCQA)的结构,涵盖了代码生成、缺陷检测、软件工程原理等多个编程任务和领域。每个子集均经过精心设计,确保能够全面反映模型在不同编程场景下的表现。
使用方法
使用CodeMMLU数据集时,研究者可以通过加载不同的子集来评估模型在特定编程任务中的表现。每个子集均以测试集的形式提供,包含任务ID、问题描述和选项。研究者可以利用这些数据进行模型训练和评估,并通过与官方提供的排行榜进行对比,了解模型在同类任务中的表现水平。
背景与挑战
背景概述
CodeMMLU数据集由FSoft-AI4Code团队于2024年推出,旨在评估大型语言模型(LLMs)在编程和软件知识领域的理解能力。该数据集基于多项选择题回答(MCQA)的结构,涵盖了代码生成、缺陷检测、软件工程原则等多个编程任务和领域。CodeMMLU的创建标志着在编程语言模型评估领域的一个重要进展,为研究人员提供了一个全面的基准,以测试和比较不同模型在复杂编程任务中的表现。该数据集的发布不仅推动了编程语言模型的研究,还为软件工程和人工智能的交叉领域提供了新的研究方向。
当前挑战
CodeMMLU数据集在解决编程语言模型评估问题时面临多重挑战。首先,编程任务的多样性和复杂性要求数据集能够涵盖广泛的编程语言和框架,这对数据集的构建和标注提出了高要求。其次,确保数据集的准确性和代表性是一个关键挑战,特别是在涉及代码生成和缺陷检测等任务时,需要精确的标注和验证。此外,数据集的规模和质量直接影响模型的训练效果,如何在有限资源下构建大规模、高质量的数据集是一个亟待解决的问题。最后,数据集的动态更新和维护也是一个挑战,以应对不断变化的编程语言和技术环境。
常用场景
经典使用场景
CodeMMLU数据集广泛应用于评估大型语言模型在代码理解和软件知识领域的表现。通过多选问答的形式,该数据集涵盖了代码生成、缺陷检测、软件工程原则等多个编程任务,为研究者提供了一个全面的基准测试平台。
解决学术问题
CodeMMLU数据集解决了在代码理解和软件知识领域中缺乏统一评估标准的问题。通过提供多样化的编程任务和领域,该数据集帮助研究者更准确地评估和比较不同模型的性能,推动了代码理解领域的研究进展。
实际应用
在实际应用中,CodeMMLU数据集被用于开发和优化代码生成工具、缺陷检测系统以及自动化软件工程解决方案。通过该数据集的测试,开发者能够识别和提升模型在实际编程任务中的表现,从而提高软件开发的效率和质量。
数据集最近研究
最新研究方向
在代码理解和软件工程领域,CodeMMLU数据集作为多任务基准测试工具,正逐渐成为评估大型语言模型(LLMs)在编程任务中表现的重要资源。该数据集通过涵盖代码生成、缺陷检测、软件工程原则等多个子集,为研究者提供了全面的评估框架。近期研究聚焦于如何利用CodeMMLU进一步提升LLMs在复杂编程任务中的准确性和泛化能力,特别是在代码补全和缺陷检测等实际应用场景中的表现。此外,随着开源社区的积极参与,CodeMMLU的持续更新和扩展也推动了相关领域的技术进步,为未来智能编程助手的发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



