five

REPOST-TRAIN, REPOST-EVAL

收藏
arXiv2025-03-10 更新2025-03-13 收录
下载链接:
https://github.com/yiqingxyq/RepoST
下载链接
链接失效反馈
官方服务:
资源简介:
REPOST-TRAIN和REPOST-EVAL是由卡内基梅隆大学和上海交通大学创建的两个大规模代码生成数据集,包含从GitHub仓库中提取的函数及其依赖。REPOST-TRAIN包含7415个函数,来自824个仓库,是当前最大的具有执行支持的反应级别代码生成数据集。数据集通过沙盒测试构造执行环境,极大地简化了依赖关系,并能够大规模构建。

REPOST-TRAIN and REPOST-EVAL are two large-scale code generation datasets developed by Carnegie Mellon University and Shanghai Jiao Tong University, which contain functions and their dependencies extracted from GitHub repositories. REPOST-TRAIN includes 7,415 functions from 824 repositories, making it the largest reaction-level code generation dataset with execution support currently available. The datasets construct execution environments via sandbox testing, which greatly simplifies dependency management and enables large-scale creation of such datasets.
提供机构:
卡内基梅隆大学, 上海交通大学
创建时间:
2025-03-10
搜集汇总
数据集介绍
main_image_url
构建方式
REPOST数据集的构建方法是通过沙盒测试来实现对代码执行反馈的提供。沙盒测试将目标函数及其依赖项隔离到一个单独的脚本中,以减少外部依赖的复杂性并允许大规模构建环境。使用这种方法,研究人员构建了REPOST-TRAIN,一个包含来自824个存储库的7,415个函数的大型训练集。
特点
REPOST数据集的特点是其可扩展性,能够大规模地构建代码生成环境。沙盒测试的使用减少了构建整个存储库的复杂性,使得数据集的构建更加高效。此外,REPOST数据集提供了执行反馈,有助于提高代码生成模型的性能。
使用方法
REPOST数据集的使用方法包括训练和评估代码生成模型。在训练过程中,可以使用REPOST-TRAIN数据集提供的执行反馈来训练模型,从而提高模型的性能。在评估过程中,可以使用REPOST-EVAL数据集来评估模型的性能。
背景与挑战
背景概述
REPOST-TRAIN 和 REPOST-EVAL 是为了解决大型代码生成数据集构建中的挑战而创建的。这些数据集由 Carnegie Mellon University 和 Shanghai Jiao Tong University 的研究人员于 2025 年开发。它们的核心研究问题是构建一个可扩展的环境,以提供对仓库级别代码生成的执行反馈。REPOST-TRAIN 包含 7,415 个函数,来自 824 个仓库,而 REPOST-EVAL 包含 296 个函数,来自 99 个仓库。这些数据集在构建时考虑了自然发生的代码仓库作为上下文,以更好地模拟现实世界的软件开发。REPOST-TRAIN 和 REPOST-EVAL 对相关领域的影响力体现在它们提供了大规模的执行反馈,有助于代码生成模型的训练和评估。
当前挑战
REPOST-TRAIN 和 REPOST-EVAL 面临的挑战包括构建可执行的代码环境,以提供对仓库级别代码生成的执行反馈。构建过程中遇到的挑战包括:1) 设置可执行环境,现有的方法通常通过集成测试提供执行反馈,这要求构建整个仓库,对于人类和 LLMs 来说都是一项挑战;2) 保证沙盒测试的准确性,即确保沙盒测试中隔离的目标函数及其依赖项的功能不变。此外,还有生成高质量的测试用例,以及保证测试覆盖率的问题。
常用场景
经典使用场景
REPOST数据集主要用于构建提供执行反馈的代码生成环境,以便于训练和评估代码生成模型。该数据集通过沙盒测试的方式,将目标函数及其依赖项隔离到一个单独的脚本中进行测试,从而简化了外部依赖关系的复杂性,使得大规模构建环境成为可能。REPOST-TRAIN数据集包含了从824个存储库中抽取的7,415个函数,而REPOST-EVAL数据集包含了从99个存储库中抽取的296个函数。使用REPOST-TRAIN进行训练的代码生成模型在HumanEval和RepoEval等基准测试中取得了显著的性能提升。
解决学术问题
REPOST数据集解决了大规模构建代码生成环境时遇到的挑战。传统的集成测试方法需要构建整个存储库,这对于人类和大型语言模型来说都是一项艰巨的任务。REPOST通过沙盒测试,将目标函数及其依赖项隔离到一个单独的脚本中,从而简化了外部依赖关系的复杂性,使得大规模构建环境成为可能。此外,REPOST还提供了一系列质量检查策略,以确保沙盒测试的准确性和有效性。REPOST的出现极大地推动了代码生成领域的发展,为研究和开发提供了重要的资源。
衍生相关工作
REPOST数据集的提出引发了大量相关研究。例如,一些研究使用REPOST数据集来训练和评估代码生成模型,并取得了显著的性能提升。此外,一些研究还探索了REPOST数据集在其他任务中的应用,例如代码修复、代码重构和代码翻译等。REPOST的出现为代码生成领域的研究提供了新的思路和方法,推动了该领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作