HumanEval-Mojo

Name: HumanEval-Mojo
Creator: 乔治梅森大学
Published: 2024-10-23 18:11:40
License: 暂无描述

arXiv2024-10-23 更新2024-10-25 收录

下载链接：

https://github.com/mraihan-gmu/MojoBench

下载链接

链接失效反馈

官方服务：

资源简介：

HumanEval-Mojo是由乔治梅森大学和圣母大学联合创建的第一个专门用于评估Mojo编程语言代码生成的大型语言模型（LLM）的基准数据集。该数据集包含164个编程任务，旨在填补现有LLM在Mojo语言支持上的空白。数据集通过从公开资源中收集和筛选高质量的Mojo代码片段，经过多轮专家审查和AI辅助生成，确保了数据集的质量和多样性。HumanEval-Mojo的应用领域主要集中在提升LLM在新型编程语言上的适应性和性能，特别是在机器学习和人工智能领域，旨在解决现有模型在Mojo等新兴编程语言上的支持不足问题。

HumanEval-Mojo is the first benchmark dataset jointly created by George Mason University and the University of Notre Dame, specifically designed for evaluating large language models (LLMs) on code generation tasks in the Mojo programming language. This dataset contains 164 programming tasks, aiming to fill the current gap in existing LLMs' support for the Mojo programming language. High-quality Mojo code snippets are collected and filtered from public resources, followed by multiple rounds of expert review and AI-assisted generation to ensure the dataset's quality and diversity. The primary applications of HumanEval-Mojo focus on enhancing the adaptability and performance of LLMs on emerging programming languages, particularly in the machine learning and artificial intelligence domains, with the goal of addressing the insufficient support that existing models provide for emerging programming languages such as Mojo.

提供机构：

乔治梅森大学

创建时间：

2024-10-23

搜集汇总

数据集介绍

构建方式

HumanEval-Mojo数据集的构建旨在填补大型语言模型（LLMs）在Mojo编程语言上的评估空白。该数据集通过扩展原始的HumanEval基准，将164个Python编程任务转换为Mojo语法，并由两位专家手动验证和测试，确保其正确性和可执行性。此外，数据集还包括了由经验丰富的Mojo程序员编写的参考解决方案，以提供高质量的评估标准。

特点

HumanEval-Mojo数据集的主要特点是其针对Mojo编程语言的专门设计，确保了任务和解决方案的准确性和适用性。此外，数据集支持多语言指令，包括英语、德语、法语、西班牙语和孟加拉语，这使得模型能够在多语言环境中进行代码生成和评估。数据集的开放源代码和详细文档也促进了进一步的研究和开发。

使用方法

HumanEval-Mojo数据集主要用于评估和训练针对Mojo编程语言的代码生成模型。研究者和开发者可以使用该数据集来测试和改进模型的代码生成能力，特别是在处理新兴和较少代表性的编程语言时。通过使用数据集中的多语言指令，模型可以在多语言环境中进行微调和评估，从而提高其适应性和性能。

背景与挑战

背景概述

近年来，由Modular公司推出的Mojo编程语言因其声称在速度上显著超越Python而引起了科学界的广泛关注。尽管在各种编程语言中，代码大型语言模型（LLMs）取得了显著进展，但Mojo在这一领域仍未被探索。为了填补这一空白，Nishat Raihan、Joanna C. S. Santos和Marcos Zampieri等人于2023年引入了MojoBench框架，这是首个用于Mojo代码生成的框架。该框架包括HumanEval-Mojo，一个用于评估Mojo代码LLMs的基准数据集，以及Mojo-Coder，首个为Mojo代码生成进行预训练和微调的LLM，支持五种自然语言（NLs）的指令。MojoBench的推出不仅展示了Mojo-Coder在性能上超越了如GPT-4o和Claude-3.5-Sonnet等领先模型，还为LLM在未被充分代表和未见过的编程语言中的行为提供了潜在的增强策略。

当前挑战

HumanEval-Mojo数据集面临的挑战主要集中在两个方面：一是解决领域问题，即在Mojo编程语言中进行代码生成和评估的挑战；二是构建过程中遇到的挑战。首先，现有的LLMs在处理Mojo代码生成任务时表现不佳，常生成非可执行或存在错误的代码片段，这凸显了在LLM开发中对更多样化编程语言支持的迫切需求。其次，构建MojoBench框架和相关数据集的过程中，研究人员必须克服数据稀缺性和质量保证的难题，确保从公开资源中提取的Mojo代码示例具有代表性和准确性。此外，多语言支持的实现也增加了数据处理的复杂性，要求在不同语言间保持一致性和高质量的翻译。

常用场景

经典使用场景

HumanEval-Mojo数据集的经典使用场景在于评估代码生成大型语言模型（LLMs）在Mojo编程语言上的性能。通过提供一系列编程任务和测试用例，该数据集允许研究人员和开发者测试和比较不同模型在生成Mojo代码方面的准确性和效率。这种评估不仅有助于识别现有模型的局限性，还为开发更适应新兴编程语言的LLMs提供了宝贵的见解。

实际应用

在实际应用中，HumanEval-Mojo数据集可以被用于开发和优化支持Mojo编程语言的代码生成工具。例如，开发者可以使用该数据集来训练和微调模型，以生成高质量的Mojo代码，从而提高开发效率和代码质量。此外，该数据集还可以用于自动化测试和代码审查工具中，帮助检测和修复潜在的代码缺陷，进一步提升软件开发的可靠性和安全性。

衍生相关工作

HumanEval-Mojo数据集的发布催生了一系列相关研究和工作，特别是在多语言代码生成和新兴编程语言支持领域。例如，基于该数据集的研究已经提出了多种改进的模型架构和训练方法，旨在提高模型在生成Mojo代码时的准确性和效率。此外，该数据集还激发了对多语言支持的深入研究，推动了跨语言代码生成技术的进步。这些衍生工作不仅丰富了学术研究的内容，也为工业界提供了实用的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集