MIA-exact-public
收藏Hugging Face2025-11-04 更新2025-11-05 收录
下载链接:
https://huggingface.co/datasets/AISE-TUDelft/MIA-exact-public
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文件的多种属性信息,如文件名、大小、语言、仓库信息等,并分为训练集和测试集,每个集合包含25000个文件示例。
提供机构:
AISE research lab at TU Delft
创建时间:
2025-11-04
原始信息汇总
MIA-exact-public数据集概述
数据集基本信息
- 数据集名称: MIA-exact-public
- 存储位置: https://huggingface.co/datasets/AISE-TUDelft/MIA-exact-public
- 数据量: 329,176,008字节
- 下载大小: 112,425,485字节
- 样本总数: 50,000条
数据划分
- 训练集: 25,000个样本,164,588,004字节
- 测试集: 25,000个样本,164,588,004字节
数据特征
文件基本信息
- 文件标识符(id)
- 文件名称(file_name)
- 文件路径(file_path)
- 文件内容(content)
- 文件大小(size)
- 编程语言(language)
- 文件扩展名(extension)
代码统计特征
- 总行数(total_lines)
- 平均行长度(avg_line_length)
- 最大行长度(max_line_length)
- 字母数字比例(alphanum_fraction)
- 文件长度(length)
仓库元数据
- 仓库名称(repo_name)
- 星标数量(repo_stars)
- 分支数量(repo_forks)
- 开放问题数(repo_open_issues)
- 许可证(repo_license)
- 提取日期(repo_extraction_date)
重复检测标记
- RedPajama精确重复(exact_duplicates_redpajama)
- RedPajama近似重复(near_duplicates_redpajama)
- GitHubCode精确重复(exact_duplicates_githubcode)
- StackV2精确重复(exact_duplicates_stackv2)
- StackV1精确重复(exact_duplicates_stackv1)
- GitHubCode近似重复(near_duplicates_githubcode)
- StackV1近似重复(near_duplicates_stackv1)
- StackV2近似重复(near_duplicates_stackv2)
搜集汇总
数据集介绍

构建方式
在代码数据质量评估领域,MIA-exact-public数据集通过系统化采集GitHub开源代码库构建而成。该数据集从海量代码仓库中提取了5万个样本文件,每个样本均标注了详细的元数据信息,包括代码文件路径、编程语言类型、代码库星级评价等关键特征。数据采集过程特别注重代码质量指标,通过计算代码行数、平均行长度、字母数字比例等量化参数,为代码质量分析提供了坚实基础。
特点
该数据集最显著的特点在于其全面的重复代码检测能力,针对每个代码文件都标注了与多个主流代码数据集的重叠情况。数据集涵盖了精确重复和近似重复两种检测结果,覆盖RedPajama、GitHubCode以及Stack系列等多个重要代码数据集。每个样本均附带完整的代码库元数据,包括项目知名度指标如星标数、分支数和开源许可证信息,为研究代码质量和代码复用模式提供了多维度的分析视角。
使用方法
研究人员可借助该数据集开展代码克隆检测、代码质量评估和开源软件生态研究。数据集提供了标准的训练集和测试集划分,各包含25000个样本,支持机器学习模型的训练与验证。使用时可基于代码内容特征和元数据信息构建分类模型,或利用重复检测标签进行代码相似性分析。数据集的标准化格式便于直接加载到主流机器学习框架中,为代码智能研究提供了即用型实验平台。
背景与挑战
背景概述
随着大规模代码数据在人工智能领域的广泛应用,代码重复检测成为保障模型训练质量的关键环节。MIA-exact-public数据集应运而生,由专业研究团队构建,聚焦于源代码级别的精确与近似重复识别。该数据集通过整合多源代码仓库的元数据与内容特征,系统性地标注了与RedPajama、GitHubCode及Stack系列数据集的重复关联性,为代码去重与数据治理研究提供了标准化基准。其多维特征架构不仅覆盖代码结构统计指标,还包含仓库生态数据,显著推动了代码大数据清洗与质量评估方法的发展。
当前挑战
在代码重复检测领域,核心挑战在于高维特征空间中相似性度量的模糊边界问题,以及跨项目代码片段的功能等价性判别。数据集构建过程中面临多重技术难点:需处理海量代码的异构格式与编码差异,设计鲁棒的文本哈希与向量化方法以平衡检测效率与精度,同时需解决多版本代码库的时间演化一致性校验。此外,规模化数据采集还需克服开源许可证兼容性验证与仓库元数据动态更新的实时性约束,这些因素共同构成了数据集构建的技术壁垒。
常用场景
经典使用场景
在代码数据质量评估领域,MIA-exact-public数据集通过标注多源代码库中的精确与近似重复样本,为大规模代码去重研究提供了基准工具。其结构化特征支持对代码片段相似性进行量化分析,常被用于训练检测模型以识别跨仓库的冗余代码,优化数据清洗流程。
实际应用
实际应用中,该数据集被集成至代码托管平台的智能去重系统,帮助开发者筛选高质量代码仓库。企业可依据其标注的星标数、许可证类型等指标构建代码推荐引擎,同时为学术机构提供标准化测试集以验证代码相似性检测工具的性能。
衍生相关工作
基于该数据集衍生的经典工作包括面向大规模代码库的层次化去重框架,以及结合元数据的代码质量评估模型。多项研究利用其精确重复标注改进了代码嵌入表示方法,并推动了如CodeT5等预训练模型在代码理解任务中的性能优化。
以上内容由遇见数据集搜集并总结生成



