CodeScope
收藏arXiv2024-02-06 更新2024-07-30 收录
下载链接:
https://github.com/WeixiangYAN/CodeScope
下载链接
链接失效反馈官方服务:
资源简介:
CodeScope是一个基于执行的、多语言、多任务、多维度的评估基准,用于全面衡量大型语言模型在编码任务上的能力。它覆盖了43种编程语言和8种编码任务,从难度、效率和长度三个维度评估编码性能。
创建时间:
2023-11-15
原始信息汇总
CodeScope 数据集概述
CodeScope 是一个基于执行的、多语言、多任务、多维度的评估基准,用于全面评估大型语言模型(LLMs)在编码任务上的能力。该基准涵盖了 43种编程语言 和 8种编码任务,从 难度、效率 和 长度 三个维度评估LLMs的编码性能。
数据集更新
- [2024.05.15] CodeScope 被接受为 ACL 2024 主会议 论文,感谢学术界的认可。
- [2023.11.15] CodeScope 发布。
数据集访问
编码任务
CodeScope 评估 LLMs 在 代码理解 和 代码生成 方面的综合能力,具体包括以下 8种编码任务:
代码理解
- 代码摘要(Code Summarization)
- 代码异味(Code Smell)
- 代码审查(Code Review)
- 自动化测试(Automated Testing)
代码生成
- 程序合成(Program Synthesis)
- 代码翻译(Code Translation)
- 代码修复(Code Repair)
- 代码优化(Code Optimization)
引用
如果您使用 CodeScope 的数据或代码,请引用以下论文:
@misc{yan2023codescope, title={CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation}, author={Weixiang Yan and Haitian Liu and Yunkun Wang and Yunzhe Li and Qian Chen and Wen Wang and Tingyu Lin and Weishan Zhao and Li Zhu and Shuiguang Deng and Hari Sundaram}, year={2023}, eprint={2311.08588}, archivePrefix={arXiv}, primaryClass={cs.CL} }



