code_bench

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/0xnu/code_bench

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了来自Codeforces的编程评估问题集，用于大型语言模型(LLMs)的训练和评估。

创建时间：

2025-08-15

搜集汇总

数据集介绍

构建方式

在编程能力评估领域，MathsBench数据集通过系统性地采集Codeforces平台上的编程题目构建而成。该平台作为国际知名的竞技编程网站，其题目涵盖算法设计、数学建模等计算机科学核心领域，数据集开发者采用标准化爬取技术获取原始数据，并经过人工校验确保题目质量与格式规范，最终形成包含10,000至15,000条样本的精选问题集。

特点

作为面向大语言模型的编程评估基准，该数据集展现出鲜明的专业性与挑战性。题目内容覆盖动态规划、图论算法等高阶编程知识点，每个样本均包含完整的题目描述与测试用例，其难度梯度设计既包含基础语法练习，也涉及国际竞赛级别的复杂问题，为模型能力测试提供多维度的评估场景。数据采用Apache-2.0开源协议，保障了学术研究的可及性与扩展性。

使用方法

研究者可将其作为标准测试集评估模型在代码生成与逻辑推理方面的性能。使用时应遵循问题原始结构，将题目描述作为模型输入，预期输出需符合给定测试用例的验证标准。数据集支持端到端的评估流程构建，包括代码正确性检查、时间复杂度分析等维度，建议配合自动化评测框架实现批量测试与结果分析，引用时需注明原始作者与发布年份。

背景与挑战

背景概述

CodeBench数据集由Finbarrs Oketunji于2025年创建，旨在为大型语言模型（LLMs）提供编程评估问题集。该数据集主要基于Codeforces平台上的编程题目，专注于数学相关问题的评测。随着人工智能在代码生成和理解领域的快速发展，CodeBench为研究者提供了一个标准化的基准，用于评估模型在解决复杂编程问题上的能力。该数据集的建立填补了编程评测数据集在数学问题领域的空白，对推动代码生成模型的进步具有重要意义。

当前挑战

CodeBench数据集面临的挑战主要包括两个方面。在领域问题方面，该数据集旨在解决大型语言模型在数学编程问题上的评估难题，但数学问题的多样性和复杂性对模型的泛化能力提出了极高要求。在构建过程中，如何从Codeforces平台筛选具有代表性和挑战性的数学编程题目，并确保数据集的平衡性和覆盖面，是构建者需要克服的主要困难。此外，编程问题的动态性和时效性也为数据集的长期有效性带来了挑战。

常用场景

经典使用场景

在人工智能领域，特别是大型语言模型（LLMs）的研究中，code_bench数据集被广泛用于评估模型在编程和数学问题解决方面的能力。该数据集包含了来自Codeforces的编程评估问题集，为研究者提供了一个标准化的测试平台，用于衡量模型在算法设计、逻辑推理和代码生成等方面的表现。

解决学术问题

code_bench数据集解决了大型语言模型在编程任务中缺乏标准化评估基准的问题。通过提供多样化的编程题目，该数据集帮助研究者系统地评估模型的代码生成能力和逻辑推理水平，为模型优化和性能提升提供了科学依据。其意义在于推动了编程智能领域的研究进展，并为模型在实际应用中的可靠性提供了保障。

衍生相关工作

code_bench数据集的推出催生了一系列相关研究，包括基于该数据集的模型性能评估框架、编程题目自动生成方法以及代码优化算法的研究。这些工作进一步拓展了数据集的应用范围，并为编程智能领域的发展提供了新的研究方向和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集