ExecRepoBench
收藏ExecRepoBench 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 文本生成
- 语言: 英语
- 标签: 代码
- 数据集名称: ExecRepoBench
- 数据集大小: 1K<n<10K
配置
- 配置名称: default
- 数据文件:
- split: test
- path: "exec_repo_bench.jsonl"
- 数据文件:
数据集简介
ExecRepoBench 是一个用于增强软件开发中代码补全的新框架,旨在通过创建一个仓库级别的基准测试 ExecRepoBench 和指令语料库 Repo-Instruct,来提升开源大型语言模型(LLMs)在涉及多个文件复杂相互依赖的真实编码场景中的功能。该数据集包含来自活跃 Python 仓库的 1.2K 样本,并提出了一种基于抽象语法树的多层次语法补全方法,以在不同逻辑单元(如语句、表达式和函数)中屏蔽代码片段。
数据示例
验证数据的一个示例如下: json { "repo_name": "", "file_name": "", "prefix_code": "", "suffix_code": "", "middle_code": "", "context_code": ["file_name1", "file_content1", ...], "fill_type": "" }
引用
如果您使用该数据集,请引用原始论文: bibtex @article{yang2024execrepobench, title={ExecRepoBench: Multi-level Executable Code Completion Evaluation}, author={Yang, Jian and Zhang, Jiajun and Yang, Jiaxi and Jin, Ke and Zhang, Lei and Peng, Qiyao and Deng, Ken and Miao, Yibo and Liu, Tianyu and Cui, Zeyu and others}, journal={arXiv preprint arXiv:2412.11990}, year={2024} }




