cruxeval-org/cruxeval
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cruxeval-org/cruxeval
下载链接
链接失效反馈官方服务:
资源简介:
CRUXEval是一个包含800个Python函数和输入输出对的基准测试,旨在评估代码推理、理解和执行能力。该基准测试分为两个任务:CRUXEval-I(输入预测)和CRUXEval-O(输出预测)。数据集的构建过程包括使用Code Llama 34B生成函数和输入,并通过执行函数生成输出,然后筛选出计算和内存需求较低的问题,最终随机选择800个样本构成基准测试。该数据集的目标是提供一个既足够小以便于运行,又足够大以可靠地观察不同模型性能差异的基准测试。
CRUXEval是一个包含800个Python函数和输入输出对的基准测试,旨在评估代码推理、理解和执行能力。该基准测试分为两个任务:CRUXEval-I(输入预测)和CRUXEval-O(输出预测)。数据集的构建过程包括使用Code Llama 34B生成函数和输入,并通过执行函数生成输出,然后筛选出计算和内存需求较低的问题,最终随机选择800个样本构成基准测试。该数据集的目标是提供一个既足够小以便于运行,又足够大以可靠地观察不同模型性能差异的基准测试。
提供机构:
cruxeval-org
原始信息汇总
CRUXEval 数据集概述
基本信息
- 许可证: MIT
- 语言: 代码
- 任务类别: 文本生成
- 标签: 代码生成
- 名称: CRUXEval
数据集描述
- 主页: https://crux-eval.github.io/
- 仓库: https://github.com/facebookresearch/cruxeval
- 论文: https://arxiv.org/abs/2401.03065
- 排行榜: https://crux-eval.github.io/leaderboard.html
详细信息
CRUXEval 是一个包含 800 个 Python 函数及其输入输出对的基准测试集。该基准测试集包括两个任务:CRUXEval-I(输入预测)和 CRUXEval-O(输出预测)。
构建过程
- 使用 Code Llama 34B 生成大量函数和输入。
- 通过执行函数生成输出。
- 过滤数据集,仅保留计算和内存需求较低的短问题。
- 从过滤后的数据集中随机选择 800 个样本,确保数据集大小适中,能够可靠地观察不同模型之间的性能差异。
许可证信息
CRUXEval 采用 MIT 许可证。
引用信息
@article{gu2024cruxeval, title={CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution}, author={Alex Gu and Baptiste Rozière and Hugh Leather and Armando Solar-Lezama and Gabriel Synnaeve and Sida I. Wang}, year={2024}, journal = {arXiv preprint arXiv:2401.03065}, }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



