five

自动生成的代码任务基准|代码生成数据集|LLM评估数据集

收藏
arXiv2024-10-28 更新2024-10-30 收录
代码生成
LLM评估
下载链接:
http://arxiv.org/abs/2410.21071v1
下载链接
链接失效反馈
资源简介:
自动生成的代码任务基准是由IBM以色列的研究团队开发的一个用于评估和验证代码相关任务解决方案的数据集。该数据集包含多种编程语言和代码任务的样本,如代码翻译、生成、完成、测试生成和摘要等。数据集的创建过程利用了图表示法和链式LLM代理,通过循环生成和验证代码相关工件。该数据集主要用于早期测试和验证LLM解决方案的有用性,旨在解决代码生成任务中的质量评估问题。
提供机构:
IBM以色列
创建时间:
2024-10-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于一种自动化的基准生成引擎,该引擎能够生成多种编程语言的代码任务,并作为LLM(大型语言模型)评估的输入。通过利用图表示法G,其中节点代表生成的代码工件,边表示可能的生成路径,如从自然语言需求生成Java程序。利用LLM代理链和G,生成代码相关工件,并通过G中的循环来制定对生成工件的期望,从而开发和测试可靠的LLM判断。
使用方法
该数据集可用于开发和验证LLM在代码相关任务中的解决方案,特别是用于评估生成的代码工件的有用性。用户可以通过数据集中的自动化基准生成引擎,生成特定编程语言的代码任务,并利用LLM代理链进行评估和验证。此外,数据集还支持通过图表示法G中的循环来制定和验证对生成工件的期望,从而确保解决方案的可靠性。
背景与挑战
背景概述
自动生成的代码任务基准数据集由Eitan Farchi、Shmulik Froimovich、Rami Katan和Orna Raz于2024年创建,旨在解决大规模语言模型(LLM)在代码相关任务中的质量评估问题。该数据集的核心研究问题是如何量化LLM生成的代码工件的有用性,并开发一种自动化的基准生成引擎,以生成多编程语言的代码任务,并利用LLM作为评估工具。该数据集的引入对代码生成和评估领域具有重要影响,为开发和验证LLM在代码任务中的应用提供了新的方法和工具。
当前挑战
自动生成的代码任务基准数据集面临的挑战包括:1) 量化代码生成工件的有用性,这是一个模糊且难以量化的概念;2) 构建过程中需要生成代表用户预期输入的数据,这需要大量的样本和可靠的预期结果;3) 需要开发代理人类判断的评估工具,以减少人工评估的劳动强度。此外,数据集的生成和评估过程中存在过拟合的风险,需要通过随机化和扰动来避免。
常用场景
经典使用场景
自动生成的代码任务基准数据集在代码生成和评估领域中具有经典应用场景。该数据集通过自动生成多编程语言的代码片段,用于评估大语言模型(LLM)在代码相关任务中的表现,如代码翻译、自然语言需求实现和代码摘要生成。通过这种方式,研究者能够量化LLM生成的代码在经过少量修改后是否能够被用户直接使用,从而评估其有用性。
解决学术问题
该数据集解决了在代码生成任务中评估LLM解决方案质量的学术难题。传统上,评估代码生成质量依赖于人工判断,这种方法既耗时又难以扩展。自动生成的代码任务基准通过提供大规模的自动生成代码和相应的预期结果,使得研究者能够开发和验证LLM作为判断者的能力,从而实现对代码生成解决方案的早期质量测试和持续评估。
实际应用
在实际应用中,自动生成的代码任务基准数据集被广泛用于开发和测试代码助手系统、代码翻译工具和代码摘要生成器等应用。通过使用该数据集,开发者可以在早期阶段发现和修正LLM生成代码中的问题,确保最终产品的质量和用户满意度。此外,该数据集还可用于训练和优化LLM,以提高其在多种编程语言和任务中的表现。
数据集最近研究
最新研究方向
在代码生成领域,自动生成的代码任务基准数据集的最新研究方向主要集中在开发和验证基于大型语言模型(LLM)的代码生成解决方案的质量评估方法。研究者们通过引入‘LLM作为法官’(LaaJ)的概念,利用自动生成的基准数据集来评估LLM生成的代码相关任务的实用性。该方法不仅用于开发和验证LaaJ的实现,还用于验证和测试LLM代码生成解决方案的质量。通过图表示法和LLM代理链,研究者们能够生成多种编程语言的代码任务,并利用循环结构来制定对生成工件的期望,从而开发和测试可靠的LLM判断,确保生成的高质量代码任务解决方案的实用性。
相关研究论文
  • 1
    Automatic Generation of Benchmarks and Reliable LLM Judgment for Code TasksIBM以色列 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集,旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本,涵盖4个类别和10个子类别的安全问题,特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据,经过数据清洗和去重处理,确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估,旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

TEDS

TEDS(Tencent Chinese Corpus)是由腾讯公司发布的中文文本数据集,主要用于自然语言处理和文本分类任务。该数据集包含了大量的中文文本数据,涵盖了新闻、社交媒体、论坛等多种来源,适用于训练和评估中文语言模型和文本分类模型。

ai.tencent.com 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录