MIA-public

Name: MIA-public
Creator: AISE research lab at TU Delft
Published: 2025-11-04 21:45:57
License: 暂无描述

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/AISE-TUDelft/MIA-public

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个文本文件相关信息的的数据集，每条记录包含文件ID、文件名、文件路径、文件内容、大小、语言、扩展名、总行数、平均行长度、最大行长度、字母数字比例、仓库名称、仓库星级、仓库分支数、仓库开启问题数、仓库许可、仓库提取日期以及与不同数据源的重复情况等信息。数据集分为训练集和测试集，每个集合包含25000个示例，总数据大小为276,568,982字节。

提供机构：

AISE research lab at TU Delft

创建时间：

2025-11-04

原始信息汇总

MIA-public 数据集概述

数据集基本信息

数据集名称: MIA-public
存储位置: https://huggingface.co/datasets/AISE-TUDelft/MIA-public
下载大小: 88,643,260 字节
数据集大小: 276,568,982 字节
配置名称: default

数据特征

文件标识信息

id: 整型标识符
file_name: 文件名
file_path: 文件路径
content: 文件内容

文件元数据

size: 文件大小
language: 编程语言
extension: 文件扩展名
total_lines: 总行数
avg_line_length: 平均行长度
max_line_length: 最大行长度
alphanum_fraction: 字母数字比例

仓库信息

repo_name: 仓库名称
repo_stars: 仓库星标数
repo_forks: 仓库复刻数
repo_open_issues: 仓库开放问题数
repo_license: 仓库许可证
repo_extraction_date: 仓库提取日期

重复检测标记

exact_duplicates_redpajama: RedPajama精确重复
near_duplicates_redpajama: RedPajama近似重复
exact_duplicates_githubcode: GitHubCode精确重复
exact_duplicates_stackv2: StackV2精确重复
exact_duplicates_stackv1: StackV1精确重复
near_duplicates_githubcode: GitHubCode近似重复
near_duplicates_stackv1: StackV1近似重复
near_duplicates_stackv2: StackV2近似重复
length: 长度

数据划分

训练集

划分名称: train
数据大小: 138,284,491 字节
样本数量: 25,000 条

测试集

划分名称: test
数据大小: 138,284,491 字节
样本数量: 25,000 条

文件结构

训练数据路径: data/train-*
测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在软件工程与代码智能研究领域，MIA-public数据集通过系统化的数据采集流程构建而成。该数据集从GitHub开源仓库中提取代码文件，涵盖多种编程语言和项目规模，每个样本均包含完整的代码内容及丰富的元数据信息。构建过程中采用严格的去重机制，通过对比RedPajama、GitHubCode和Stack等多个知名代码数据集，精确标识出完全重复与近似重复的样本，确保数据集的独特性和多样性。数据采集还记录了代码仓库的星级、分支数等社区活跃指标，为研究提供更全面的上下文信息。

特点

该数据集展现出多维度特征优势，其核心在于覆盖广泛的编程语言生态和项目规模分布。每个代码文件不仅包含原始内容，还集成了代码度量指标如行数统计、平均行长和字母数字比例等结构化特征。数据集的独特之处在于提供了详细的代码重复性标注，能够支持代码克隆检测和代码质量分析等研究方向。同时，数据集保留了完整的仓库元数据，包括项目流行度指标和许可证信息，为研究开源软件演化规律提供了丰富的数据支撑。

使用方法

在代码智能研究实践中，该数据集支持训练集和测试集的标准划分方式，便于模型开发与评估。研究者可直接利用代码内容字段进行代码理解、生成或翻译任务的模型训练，同时结合丰富的元数据特征进行多任务学习。数据集中的重复性标注可用于代码克隆检测模型的验证，而仓库质量指标则适用于代码推荐系统的构建。使用过程中需注意数据集的许可证合规性，确保符合开源协议的使用规范。

背景与挑战

背景概述

MIA-public数据集作为代码数据挖掘领域的重要资源，聚焦于大规模源代码的质量评估与去重研究。该数据集由专业研究机构构建，旨在解决开源代码库中存在的冗余与质量问题，通过整合多平台代码数据并标注重复特征，为代码克隆检测和软件工程优化提供基础支撑。其结构化特征设计体现了对代码可维护性与复用性的深度关注，对推动智能编程辅助工具的发展具有显著影响力。

当前挑战

该数据集核心挑战在于解决跨平台代码重复识别的复杂性，需克服不同代码仓库的格式差异与语义等价性判定的技术难点。构建过程中面临多源数据融合的异构性挑战，包括代码标准化处理、跨数据集去重算法的优化，以及大规模代码度量指标（如行长度、字符分布）的精确提取，这些因素共同构成了数据质量控制的瓶颈。

常用场景

经典使用场景

在软件工程与代码智能分析领域，MIA-public数据集凭借其多维度代码特征和跨项目元数据，成为机器学习模型训练与验证的重要资源。该数据集常被用于代码克隆检测、质量评估及模式挖掘等任务，研究者通过分析代码结构、重复性指标及仓库活跃度等特征，构建高效的代码理解模型。

实际应用

在工业实践中，该数据集支撑了智能开发工具的优化，如代码重复检测系统可借助其精确识别开源项目中的相似代码片段，辅助企业合规审查。同时其多维元数据为代码推荐引擎和自动化重构工具提供了训练基础，显著提升软件开发效率与质量管控水平。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言代码克隆检测框架、基于星标和分支数的项目质量预测模型等。这些工作进一步拓展了代码属性与项目活跃度的关联分析，催生了如代码气味检测、开发者行为分析等创新研究方向，持续推动软件仓库挖掘领域的理论深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集