five

cruxeval-org/cruxeval

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cruxeval-org/cruxeval
下载链接
链接失效反馈
官方服务:
资源简介:
CRUXEval是一个包含800个Python函数和输入输出对的基准测试,旨在评估代码推理、理解和执行能力。该基准测试分为两个任务:CRUXEval-I(输入预测)和CRUXEval-O(输出预测)。数据集的构建过程包括使用Code Llama 34B生成函数和输入,并通过执行函数生成输出,然后筛选出计算和内存需求较低的问题,最终随机选择800个样本构成基准测试。该数据集的目标是提供一个既足够小以便于运行,又足够大以可靠地观察不同模型性能差异的基准测试。

CRUXEval是一个包含800个Python函数和输入输出对的基准测试,旨在评估代码推理、理解和执行能力。该基准测试分为两个任务:CRUXEval-I(输入预测)和CRUXEval-O(输出预测)。数据集的构建过程包括使用Code Llama 34B生成函数和输入,并通过执行函数生成输出,然后筛选出计算和内存需求较低的问题,最终随机选择800个样本构成基准测试。该数据集的目标是提供一个既足够小以便于运行,又足够大以可靠地观察不同模型性能差异的基准测试。
提供机构:
cruxeval-org
原始信息汇总

CRUXEval 数据集概述

基本信息

  • 许可证: MIT
  • 语言: 代码
  • 任务类别: 文本生成
  • 标签: 代码生成
  • 名称: CRUXEval

数据集描述

  • 主页: https://crux-eval.github.io/
  • 仓库: https://github.com/facebookresearch/cruxeval
  • 论文: https://arxiv.org/abs/2401.03065
  • 排行榜: https://crux-eval.github.io/leaderboard.html

详细信息

CRUXEval 是一个包含 800 个 Python 函数及其输入输出对的基准测试集。该基准测试集包括两个任务:CRUXEval-I(输入预测)和 CRUXEval-O(输出预测)。

构建过程

  1. 使用 Code Llama 34B 生成大量函数和输入。
  2. 通过执行函数生成输出。
  3. 过滤数据集,仅保留计算和内存需求较低的短问题。
  4. 从过滤后的数据集中随机选择 800 个样本,确保数据集大小适中,能够可靠地观察不同模型之间的性能差异。

许可证信息

CRUXEval 采用 MIT 许可证。

引用信息

@article{gu2024cruxeval, title={CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution}, author={Alex Gu and Baptiste Rozière and Hugh Leather and Armando Solar-Lezama and Gabriel Synnaeve and Sida I. Wang}, year={2024}, journal = {arXiv preprint arXiv:2401.03065}, }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作