AP-MAE-dataset

Name: AP-MAE-dataset
Creator: AISE research lab at TU Delft
Published: 2025-10-30 00:42:15
License: 暂无描述

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/AISE-TUDelft/AP-MAE-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含cpp和java两种编程语言代码文件的数据集，提供了文件的详细特征信息，包括文件内容、大小、行数、仓库信息等，并分为训练集和测试集。

提供机构：

AISE research lab at TU Delft

创建时间：

2025-10-30

原始信息汇总

AP-MAE-dataset 数据集概述

数据集基本信息

数据集名称: AP-MAE-dataset
配置数量: 2个配置（cpp、java）
总数据集大小: 26.5 GB
总下载大小: 5.6 GB

配置详情

C++配置

训练集大小: 11 GB
训练集样本数: 1,000,000
测试集大小: 5.6 GB
测试集样本数: 500,000
下载大小: 3.9 GB
数据集总大小: 16.5 GB

Java配置

训练集大小: 5.7 GB
训练集样本数: 1,000,000
测试集大小: 2.9 GB
测试集样本数: 500,000
下载大小: 1.9 GB
数据集总大小: 8.6 GB

数据特征

基础特征: id、file_name、file_path、content、size、language、extension
代码统计特征: total_lines、avg_line_length、max_line_length、alphanum_fraction
仓库信息: repo_name、repo_stars、repo_forks、repo_open_issues、repo_license、repo_extraction_date
重复检测: exact_duplicates_redpajama、near_duplicates_redpajama、exact_duplicates_githubcode、exact_duplicates_stackv2、exact_duplicates_stackv1、near_duplicates_githubcode、near_duplicates_stackv1、near_duplicates_stackv2

数据文件结构

C++配置:
- 训练集路径: cpp/train-*
- 测试集路径: cpp/test-*
Java配置:
- 训练集路径: java/train-*
- 测试集路径: java/test-*

搜集汇总

数据集介绍

构建方式

在软件工程领域，AP-MAE-dataset的构建过程体现了大规模代码数据的系统性采集与处理。该数据集从开源代码仓库中提取了C++和Java两种编程语言的源代码文件，每个文件均附带详尽的元数据信息，包括文件大小、行数统计及代码库的社交指标。通过多维度去重机制，该数据集与RedPajama、GitHubCode及Stack Overflow等多个知名代码数据集进行了精确与近似重复项的交叉验证，确保了数据样本的独特性和代表性。

特点

该数据集在代码语料库领域展现出显著的结构化特征，其核心优势在于覆盖了两种主流编程语言的平行语料，每个样本均包含完整的代码内容与丰富的元数据属性。数据集的规模庞大，训练集与测试集划分明确，C++配置包含150万样本，Java配置同样达到150万样本。独特的去重标识字段为研究代码克隆检测和语义相似性提供了可靠基础，而代码库的星级、分支数等社交指标则为分析代码质量与流行度关联性创造了条件。

使用方法

针对代码表示学习与程序分析任务，该数据集提供了标准化的加载流程。研究人员可通过HuggingFace数据集库按语言配置（cpp/java）分别访问训练集与测试集，每个样本以字典结构呈现代码内容及23项元数据特征。该设计支持直接应用于代码摘要、缺陷检测等下游任务，其去重标识字段可有效避免模型训练中的数据泄漏问题，而代码统计指标则为数据筛选与预处理提供了量化依据。

背景与挑战

背景概述

AP-MAE-dataset作为源代码处理领域的重要资源，聚焦于C++与Java两种主流编程语言的代码分析。该数据集由研究团队基于GitHub开源项目构建，通过系统化采集代码文件及其元数据，旨在推动代码理解与生成模型的研发。其设计初衷在于解决传统代码数据集规模有限、语言覆盖单一的问题，为程序语言处理研究提供大规模高质量语料支撑。数据集包含文件内容、代码度量指标及仓库生态信息等多维度特征，显著提升了代码表征学习的可解释性与泛化能力。

当前挑战

在代码智能领域，该数据集需应对编程语言语法结构复杂性与语义歧义性带来的表征挑战，同时需解决代码克隆检测与跨项目泛化等核心问题。构建过程中面临多重技术难点：需通过重复项标识机制消除RedPajama、GitHubCode及Stack系列数据源的冗余样本，确保数据唯一性；在代码质量把控方面，需平衡代码规模与质量指标的关系，并处理许可证兼容性等法律合规问题。此外，跨仓库元数据的异构整合与时间维度的版本一致性维护也构成显著挑战。

常用场景

经典使用场景

在软件工程与代码智能分析领域，AP-MAE-dataset以其大规模C++与Java代码文件集合，为代码表示学习提供了关键资源。该数据集常用于训练自监督模型，如掩码自动编码器，通过重构被遮蔽的代码片段来捕捉深层语义特征，推动代码理解与生成任务的进展。

实际应用

在实际开发场景中，AP-MAE-dataset可应用于智能代码补全、缺陷检测及自动化重构工具的开发。基于其标注的代码重复信息，企业能够构建高效的代码去重系统，优化存储资源并维护代码库的整洁性，从而提升软件维护效率与工程质量。

衍生相关工作

围绕该数据集衍生的经典研究包括基于掩码预训练的代码模型优化、跨语言代码迁移学习框架构建，以及结合仓库星标与复刻数据的开发者行为分析。这些工作进一步拓展了代码数据在教育辅助、知识产权保护等跨学科领域的应用潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集