apps-introductory-cleaned

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/mxzoo/apps-introductory-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含编程相关的问题及其解决方案，结构化存储为多个特征字段。主要字段包括问题ID（problem_id）、问题描述（question）、解决方案（solutions）、输入输出示例（input_output）、难度等级（difficulty）、来源URL（url）以及初始代码模板（starter_code）。数据集分为训练集（train）和测试集（test），分别包含2394和726个样本，总大小约220MB。数据以文件形式存储，训练集路径为data/train-*，测试集路径为data/test-*。适用于代码生成、程序修复等编程辅助任务的模型训练与评估。

创建时间：

2026-04-20

原始信息汇总

数据集概述

该数据集是 apps-introductory-cleaned，托管于 Hugging Face，旨在提供经过清洗的编程问题数据，适用于入门级难度。

数据特征

数据集包含以下字段：

problem_id：问题唯一标识符（整数类型）
question：问题描述（字符串类型）
solutions：解决方案（字符串类型）
input_output：输入输出示例（字符串类型）
difficulty：难度等级（字符串类型）
url：问题来源链接（字符串类型）
starter_code：初始代码模板（字符串类型）

数据划分

数据集分为两个子集：

训练集：包含 2,394 个样本，大小为 19,529,561 字节
测试集：包含 726 个样本，大小为 200,237,217 字节

总数据集大小为 220,266,778 字节，下载大小为 152,829,530 字节。

配置信息

该数据集提供默认配置，数据文件存储路径为：

训练集：data/train-*
测试集：data/test-*

搜集汇总

数据集介绍

构建方式

该数据集基于APPS（Automated Programming Progress Standard）基准进行精炼与重铸，专注于筛选并清理其中适用于入门级编程任务的样本。原始数据经过多轮质量控制，剔除了描述模糊、代码碎片化或输入输出规范不统一的条目，最终保留2394条训练样本与726条测试样本，确保每一条数据都具备清晰的问题陈述、完整的解决方案及可验证的输入输出对。构建过程强调实用性与教育性，使数据集聚焦于算法思维与基础编码能力的评测，而非复杂工程问题。

特点

数据集的核心特色在于其高度结构化且易于使用的字段设计。每条记录包含问题ID、英文问题描述、参考解决方案、I/O测试用例、难度标签及起始代码框架，形成了从理解问题到验证答案的完整闭环。训练与测试样本的难度分布经过精心调整，以覆盖从简单数学运算到中等动态规划等典型入门题型，既适合初学者循序渐进地练习，也能作为评估模型基础编程能力的标准化基准。此外，清洗后的数据排除了无效或歧义样本，大幅降低了训练与评测中的噪声干扰。

使用方法

该数据集可直接用于训练和评估代码生成模型或编程辅助系统。用户可通过HuggingFace Datasets库按规范加载train与test两个分片，利用'question'字段作为模型输入，以'solutions'或'input_output'作为监督信号进行微调。评测时，可将模型生成的代码在给定的I/O用例上运行，通过比对输出结果实现自动化打分。'starter_code'字段则为少样本或填充式任务提供了代码前缀，便于开展条件生成实验。数据集的轻量级与结构化特性，使其适合作为编程能力评估的快速验证集。

背景与挑战

背景概述

APPS-Introductory-Cleaned数据集是在APPS（Automated Programming Progress Standards）数据集基础上进行清洗和优化的产物，由学术研究机构于近年开发，旨在评估和提升代码生成模型在入门级编程问题上的表现。该数据集包含2394个训练样本和726个测试样本，每个样本涵盖问题描述、解决方案、输入输出示例及难度标签等关键信息，核心研究聚焦于自动化编程能力评测与程序合成算法的鲁棒性。作为APPS数据集的精炼版本，它剔除了原始数据中的噪声与格式不一致问题，为代码智能领域提供了更高质量的基准资源，在推动大型语言模型（如GPT、Codex）的代码生成能力研究中扮演了重要角色。

当前挑战

该数据集所应对的领域挑战在于，尽管代码生成模型在复杂编程任务上取得进展，但入门级问题中的逻辑推理与语法精确性仍是瓶颈，尤其是模型需从自然语言描述中准确理解意图并生成正确代码。构建过程中，原始APPS数据存在标签错误、代码碎片化及测试用例不完整等缺陷，清洗工作需人工审核与自动化过滤相结合，确保问题难度标定一致且输入输出格式标准化。此外，保留问题的多样性同时避免数据泄露（如训练集与测试集内容重叠）也是关键难点，最终通过迭代优化实现了可靠的数据划分，为公平评估模型泛化能力奠定了基础。

常用场景

经典使用场景

在编程教育研究与代码智能领域，APPS-Introductory-Cleaned数据集被广泛用于评估模型在初级编程题目上的代码生成与理解能力。该数据集包含2394道训练题目与726道测试题目，涵盖问题描述、标准解答、输入输出模板及难度标签等关键元素，成为研究者测试语言模型基础编程素养的经典基准。通过聚焦入门级问题，它有效降低了任务门槛，使得模型能力的横向对比更加明确，特别适合用于指导大型语言模型在结构化编程任务中的微调与推理优化。

衍生相关工作

围绕该数据集，衍生了一系列具有里程碑意义的经典工作，包括Codex、AlphaCode及CodeGen等代码生成模型的性能评估与消融实验。研究者常以该数据集作为微调与对比基准，探索提示工程、思维链推理及多轮交互策略在编程任务中的有效性。此外，基于该数据集还催生了新的标准化评测集，如HumanEval与MBPP的交叉验证工作，进一步夯实了代码智能研究领域的实证基础。

数据集最近研究