CODEELO|代码生成数据集|模型评估数据集

arXiv2025-01-04 更新2025-01-07 收录

代码生成

模型评估

下载链接：

https://hf.co/datasets/Qwen/CodeElo

下载链接

链接失效反馈

资源简介：

CODEELO是由阿里巴巴集团开发的一个标准化竞赛级代码生成基准数据集，基于CodeForces平台的近期比赛问题构建。数据集包含详细的比赛分区、问题难度评级和算法标签信息，旨在评估大型语言模型在复杂代码生成任务中的表现。通过自动提交代码到CodeForces平台进行评测，CODEELO实现了零误判率，并支持特殊评测代码，确保了评测环境的完全一致性。数据集的应用领域主要集中在评估和改进大型语言模型的代码推理能力，特别是在竞赛级编程任务中的表现。

提供机构：

阿里巴巴集团

创建时间：

2025-01-02

AI搜集汇总

数据集介绍

构建方式

CODEELO数据集的构建主要基于CodeForces平台，收集了最近六个月的竞赛题目，并详细记录了竞赛的难度等级、题目难度评分以及算法标签。为了确保评估的准确性，CODEELO采用了独特的评估方法，即通过自动提交机器人将模型生成的代码直接提交到CodeForces平台进行评测，从而避免了传统基准测试中因测试用例不足或执行环境不一致导致的误判问题。此外，CODEELO还引入了与平台对齐的Elo评分系统，能够提供与人类参与者可比的标准评分。

特点

CODEELO数据集的特点在于其全面性和标准化。首先，数据集涵盖了CodeForces平台上多个难度等级的竞赛题目，确保了评估的广泛性和深度。其次，CODEELO支持特殊评测（Special Judge），能够处理那些没有唯一正确答案的题目，这在以往的基准测试中是无法实现的。此外，CODEELO的执行环境与CodeForces平台完全对齐，确保了评测结果的准确性。最后，CODEELO提供了标准化的Elo评分，使得模型的性能可以与人类参与者进行直接比较。

使用方法

CODEELO数据集的使用方法主要包括以下几个步骤：首先，用户可以通过数据集提供的接口获取竞赛题目及其相关信息。接着，用户可以使用模型生成代码，并通过自动提交机器人将代码提交到CodeForces平台进行评测。评测结果将直接返回给用户，包括代码是否通过所有测试用例以及相应的Elo评分。用户可以根据这些结果对模型的性能进行分析和优化。此外，CODEELO还支持对不同算法标签和编程语言的性能进行详细分析，帮助用户深入了解模型在不同任务上的表现。

背景与挑战

背景概述

CODEELO是由阿里巴巴集团的Qwen团队于2025年推出的一个标准化竞赛级代码生成基准测试数据集。该数据集基于CodeForces平台，旨在评估大型语言模型（LLMs）在复杂代码生成任务中的表现。CODEELO的创建背景源于现有基准测试（如LiveCodeBench和USACO）在测试用例、特殊评判支持和执行环境对齐方面的不足。CODEELO通过直接提交代码到CodeForces平台进行评判，解决了这些问题，并首次引入了与人类参与者可比的标准Elo评分系统。该数据集不仅为LLMs的代码生成能力提供了全面的评估框架，还为未来的研究提供了方向。

当前挑战

CODEELO面临的挑战主要包括两个方面：首先，竞赛级代码生成问题的复杂性要求模型具备高度的算法设计和实现能力，尤其是在动态规划和树结构等复杂算法上的表现较差。其次，构建CODEELO数据集时，研究人员需要克服测试用例的不可访问性、特殊评判的编写难度以及执行环境对齐的问题。尽管CODEELO通过直接提交代码到CodeForces平台解决了这些挑战，但每个问题仅允许八次提交的限制可能导致模型的实际评分略低于其真实能力。此外，依赖CodeForces平台进行评判也带来了潜在的伦理和技术限制。

常用场景

经典使用场景

CODEELO数据集主要用于评估大型语言模型（LLMs）在竞赛级代码生成任务中的表现。通过基于CodeForces平台的竞赛题目，CODEELO提供了一个标准化的评估框架，能够测试模型在复杂算法设计、代码实现和运行效率等方面的能力。该数据集特别适用于研究模型在动态规划、图论、数论等高级算法领域的表现。

实际应用

CODEELO的实际应用场景广泛，特别是在编程竞赛、算法教学和自动化代码生成领域。通过该数据集，研究人员和开发者可以评估和优化模型在解决复杂编程问题时的表现，尤其是在时间敏感和资源受限的环境中。此外，CODEELO还可用于开发智能编程助手，帮助程序员在竞赛中快速生成高效的代码解决方案。

衍生相关工作

CODEELO的推出催生了一系列相关研究，特别是在大型语言模型的代码生成能力评估方面。基于CODEELO的研究工作包括对不同模型在C++和Python语言下的表现进行对比分析，揭示了模型在特定编程语言下的性能差异。此外，CODEELO还为模型在动态规划、图论等复杂算法领域的表现提供了新的评估标准，推动了相关领域的进一步研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录