five

CodeScope

收藏
arXiv2024-02-06 更新2024-07-30 收录
下载链接:
https://github.com/WeixiangYAN/CodeScope
下载链接
链接失效反馈
官方服务:
资源简介:
CodeScope是一个基于执行的、多语言、多任务、多维度的评估基准,用于全面衡量大型语言模型在编码任务上的能力。它覆盖了43种编程语言和8种编码任务,从难度、效率和长度三个维度评估编码性能。
创建时间:
2023-11-15
原始信息汇总

CodeScope 数据集概述

CodeScope 是一个基于执行的、多语言、多任务、多维度的评估基准,用于全面评估大型语言模型(LLMs)在编码任务上的能力。该基准涵盖了 43种编程语言8种编码任务,从 难度效率长度 三个维度评估LLMs的编码性能。

数据集更新

  • [2024.05.15] CodeScope 被接受为 ACL 2024 主会议 论文,感谢学术界的认可。
  • [2023.11.15] CodeScope 发布。

数据集访问

编码任务

CodeScope 评估 LLMs 在 代码理解代码生成 方面的综合能力,具体包括以下 8种编码任务

代码理解

  1. 代码摘要(Code Summarization)
  2. 代码异味(Code Smell)
  3. 代码审查(Code Review)
  4. 自动化测试(Automated Testing)

代码生成

  1. 程序合成(Program Synthesis)
  2. 代码翻译(Code Translation)
  3. 代码修复(Code Repair)
  4. 代码优化(Code Optimization)

引用

如果您使用 CodeScope 的数据或代码,请引用以下论文:

@misc{yan2023codescope, title={CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation}, author={Weixiang Yan and Haitian Liu and Yunkun Wang and Yunzhe Li and Qian Chen and Wen Wang and Tingyu Lin and Weishan Zhao and Li Zhu and Shuiguang Deng and Hari Sundaram}, year={2023}, eprint={2311.08588}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作