cruxeval-org/cruxeval

Name: cruxeval-org/cruxeval
Creator: cruxeval-org
Published: 2024-01-23 23:20:31
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cruxeval-org/cruxeval

下载链接

链接失效反馈

官方服务：

资源简介：

CRUXEval是一个包含800个Python函数和输入输出对的基准测试，旨在评估代码推理、理解和执行能力。该基准测试分为两个任务：CRUXEval-I（输入预测）和CRUXEval-O（输出预测）。数据集的构建过程包括使用Code Llama 34B生成函数和输入，并通过执行函数生成输出，然后筛选出计算和内存需求较低的问题，最终随机选择800个样本构成基准测试。该数据集的目标是提供一个既足够小以便于运行，又足够大以可靠地观察不同模型性能差异的基准测试。

提供机构：

cruxeval-org

原始信息汇总

CRUXEval 数据集概述

基本信息

许可证: MIT
语言: 代码
任务类别: 文本生成
标签: 代码生成
名称: CRUXEval

数据集描述

主页: https://crux-eval.github.io/
仓库: https://github.com/facebookresearch/cruxeval
论文: https://arxiv.org/abs/2401.03065
排行榜: https://crux-eval.github.io/leaderboard.html

详细信息

CRUXEval 是一个包含 800 个 Python 函数及其输入输出对的基准测试集。该基准测试集包括两个任务：CRUXEval-I（输入预测）和 CRUXEval-O（输出预测）。

构建过程

使用 Code Llama 34B 生成大量函数和输入。
通过执行函数生成输出。
过滤数据集，仅保留计算和内存需求较低的短问题。
从过滤后的数据集中随机选择 800 个样本，确保数据集大小适中，能够可靠地观察不同模型之间的性能差异。

许可证信息

CRUXEval 采用 MIT 许可证。

引用信息

@article{gu2024cruxeval, title={CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution}, author={Alex Gu and Baptiste Rozière and Hugh Leather and Armando Solar-Lezama and Gabriel Synnaeve and Sida I. Wang}, year={2024}, journal = {arXiv preprint arXiv:2401.03065}, }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集