MatrixStudio/Codeforces-Python-Submissions

Name: MatrixStudio/Codeforces-Python-Submissions
Creator: MatrixStudio
Published: 2025-03-13 03:02:21
License: 暂无描述

Hugging Face2025-03-13 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/MatrixStudio/Codeforces-Python-Submissions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含编程竞赛问题和Python语言提交的代码的数据集。数据集包括问题ID、索引、名称、类型、评分、标签、标题、时间限制、内存限制、问题描述、输入规范、输出规范、示例输入、示例输出、备注、分数、测试用例、创建时间、相对时间、编程语言、裁决结果、测试集、通过测试数量、消耗时间、消耗内存、代码、提示和响应等信息。数据集分为训练集和测试集，其中训练集包含621,356个示例，测试集包含69,040个示例。

This dataset contains programming contest problems and Python language submissions. It includes information such as problem ID, index, name, type, rating, tags, title, time limit, memory limit, problem description, input specification, output specification, sample input, sample output, note, score, test cases, creation time, relative time, programming language, verdict, testset, passed test count, time consumed, memory consumed, code, prompt, and response. The dataset is split into a training set with 621,356 examples and a test set with 69,040 examples.

提供机构：

MatrixStudio

原始信息汇总

数据集概述

数据集信息

特征列表:
- contestId: 整数类型
- index: 字符串类型
- name: 字符串类型
- type: 字符串类型
- rating: 整数类型
- tags: 字符串序列
- title: 字符串类型
- time-limit: 字符串类型
- memory-limit: 字符串类型
- problem-description: 字符串类型
- input-specification: 字符串类型
- output-specification: 字符串类型
- demo-input: 字符串序列
- demo-output: 字符串序列
- note: 字符串类型
- points: 浮点数类型
- test_cases: 列表类型，包含 input 和 output，均为字符串类型
- creationTimeSeconds: 整数类型
- relativeTimeSeconds: 整数类型
- programmingLanguage: 字符串类型
- verdict: 字符串类型
- testset: 字符串类型
- passedTestCount: 整数类型
- timeConsumedMillis: 整数类型
- memoryConsumedBytes: 整数类型
- code: 字符串类型
- prompt: 字符串类型
- response: 字符串类型
- score: 浮点数类型

数据集划分

训练集:
- 字节数: 4233926740
- 样本数: 621356
测试集:
- 字节数: 470125693
- 样本数: 69040

数据集大小

下载大小: 1663054241 字节
数据集总大小: 4704052433 字节

配置信息

默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在编程竞赛研究领域，Codeforces-Python-Submissions数据集通过系统化采集Codeforces平台上的Python提交记录构建而成。该过程涉及从平台公开接口提取结构化数据，涵盖竞赛标识、题目详情、提交元数据及完整代码。数据经过清洗与标准化处理，确保每一条记录包含题目描述、测试用例、执行结果及资源消耗等关键信息，最终划分为训练集与测试集，为算法分析与模型训练提供坚实基础。

特点

该数据集以其全面性与细粒度标注而著称，不仅收录了题目的文本描述、时间与内存限制，还整合了实际提交的代码、执行状态及性能指标。其独特之处在于包含了丰富的元数据，如题目评分、标签、测试用例以及提交的详细运行时信息，这为研究代码生成、程序分析与竞赛策略提供了多维度的数据支撑。数据集规模庞大，覆盖多样化的编程问题与解决方案，体现了实际竞赛环境中的复杂性与动态性。

使用方法

研究人员可利用该数据集进行代码智能领域的多项任务，例如代码生成模型的训练与评估、程序错误检测与修复、或竞赛题目难度预测。使用时应首先加载数据分割，依据任务需求提取相关特征，如代码文本、题目描述或执行结果。通过结合题目标签与评分信息，可构建监督学习或强化学习框架，同时注意处理数据中的噪声与不平衡分布，以确保模型在实际应用中的稳健性与泛化能力。

背景与挑战

背景概述

在人工智能与编程教育融合的浪潮中，自动代码生成与智能编程辅助成为研究热点。MatrixStudio/Codeforces-Python-Submissions数据集应运而生，由MatrixStudio团队构建，汇集了Codeforces竞赛平台上大量Python语言提交记录。该数据集旨在为代码智能、程序合成及教育技术领域提供丰富资源，通过解析竞赛题目、解决方案及执行元数据，支持模型在理解编程逻辑、优化代码性能方面的探索，对推动自动化编程工具的发展具有显著影响力。

当前挑战

该数据集致力于应对编程竞赛中代码自动生成与错误修复的复杂挑战，其核心在于模型需精准理解问题描述、算法设计及约束条件，以生成高效正确的代码。在构建过程中，挑战主要源于数据采集与处理的复杂性：需从动态竞赛平台高效提取结构化提交记录，确保代码、测试用例及元数据的完整性；同时，数据清洗涉及处理多语言干扰、无效提交及隐私信息过滤，以保障数据质量与合规性。

常用场景

经典使用场景

在编程竞赛与算法研究领域，该数据集为评估代码生成模型的性能提供了标准化的基准。通过整合Codeforces平台上的Python提交记录，包括问题描述、测试用例、代码实现及评测结果，研究者能够系统性地分析模型在解决复杂算法问题时的准确性与效率。数据集覆盖了从简单到高难度的多样化编程任务，使得模型训练与验证过程更具代表性和挑战性，成为推动智能编程助手发展的核心资源。

解决学术问题

该数据集有效应对了代码生成研究中数据稀缺与质量不均的学术难题。其结构化的问题-代码对及详尽的评测信息，为探索模型在理解自然语言描述、生成可执行代码、优化算法性能等方面的能力提供了实证基础。通过量化分析提交记录中的时间与内存消耗，研究得以深入揭示模型在现实编程环境中的泛化能力与鲁棒性，显著促进了自动化编程与教育辅助技术的理论进展。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究工作，主要集中在代码生成模型的架构创新与评测方法上。例如，研究者利用其构建了针对算法问题的多任务学习框架，提升了模型对编程逻辑的泛化能力；同时，基于数据集的评测基准催生了新型自动化评分系统，能够更精准地评估生成代码的功能正确性与性能优劣。这些工作共同推动了智能编程领域向更高效、可靠的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集