Filtered-StarCoder-Dataset-Mini

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/jugalgajjar/Filtered-StarCoder-Dataset-Mini

下载链接

链接失效反馈

官方服务：

资源简介：

Filtered StarCoder Dataset Mini是一个包含12种流行编程语言（C、C++、C#、Go、Java、JavaScript、Kotlin、Python、Ruby、Rust、Scala和TypeScript）代码样本的数据集。该数据集通过筛选高质量代码、去除异常值和标准化格式化处理而创建。每个样本都包含有关平均行长度和行数的元数据。数据集采用Parquet格式存储，便于机器学习和代码分析应用。

创建时间：

2025-05-15

原始信息汇总

Filtered StarCoder Dataset Mini 数据集概述

数据集描述

包含12种流行编程语言的过滤和处理后的代码样本：C、C++、C#、Go、Java、JavaScript、Kotlin、Python、Ruby、Rust、Scala和TypeScript
基于质量指标过滤源代码，移除异常值并标准化格式，适用于机器学习和代码分析应用

关键特性

清理和过滤的代码：移除行长度和代码大小的异常值
质量指标：每个样本包含平均行长度和行数的元数据
多语言支持：12种编程语言分别存储
一致格式：所有样本采用相同的Parquet结构

数据集规模

完整数据集约14GB
各语言文件大小：
- 最大：C++（2GB）
- 最小：Scala（700MB）

数据集统计

语言	样本数量	平均行长度	平均行数
C	1,751,894	22.55	74.48
C++	1,769,514	23.50	103.59
C#	1,762,960	25.76	51.50
Go	1,750,873	20.68	81.76
Java	1,778,689	25.48	64.56
JavaScript	1,719,140	23.31	51.29
Kotlin	1,589,735	27.39	42.31
Python	1,764,481	26.52	66.15
Ruby	1,758,558	22.31	33.95
Rust	1,341,806	27.36	190.37
Scala	1,322,906	31.48	94.89
TypeScript	1,738,950	24.15	43.46

数据结构

每种编程语言单独存储为Parquet文件
文件命名示例：c.parquet、cpp.parquet等
数据模式：
- language：字符串（编程语言）
- code：字符串（完整代码内容）
- avg_line_length：浮点数（每行平均字符数）
- line_count：整数（代码总行数）

访问方式

使用Hugging Face `datasets`库

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("jugalgajjar/Filtered-StarCoder-Dataset-Mini")

加载特定语言

dataset = load_dataset( "jugalgajjar/Filtered-StarCoder-Dataset-Mini", data_files="scala.parquet" )

流式传输数据

dataset = load_dataset( "jugalgajjar/Filtered-StarCoder-Dataset-Mini", data_files="scala.parquet", streaming=True )

手动下载

访问数据集页面
导航至"Files"选项卡
点击要下载的语言文件（如python.parquet）
使用下载按钮保存到本地

数据集创建过程

从StarCoder数据集收集原始代码样本
执行统计分析以识别质量指标
使用IQR方法移除异常值
过滤过长或过短的代码示例
跨语言标准化数据
计算每个样本的元数据
最终数据序列化为Parquet格式

引用

bibtex @misc{fscdmini2025, author = {Jugal Gajjar, Kamalasankari Subramaniakuppusamy, Kaustik Ranaware}, title = {Filtered CodeStar Dataset Mini}, year = {2025}, publisher = {HuggingFace}, howpublished = {https://huggingface.co/datasets/jugalgajjar/Filtered-StarCoder-Dataset-Mini} }

许可证

MIT License

搜集汇总

数据集介绍

构建方式

在代码智能研究领域，高质量数据集的构建对模型性能具有决定性影响。Filtered-StarCoder-Dataset-Mini通过多阶段处理流程构建：首先基于StarCoder原始数据集，采用四分位距法剔除异常样本，消除极端行长度和代码规模的离群值；随后通过统计分析方法计算每个样本的平均行长度和总行数等质量指标；最终将12种主流编程语言的标准化代码样本以Parquet格式存储，确保数据结构统一且处理高效。该流程特别注重保持语言特性的同时实现跨语言数据一致性。

特点

作为面向代码智能研究的精选数据集，其核心价值体现在多维度的质量控制。数据集涵盖C、Python等12种语言的170余万样本，每个样本均附带精确的元数据标注，包括平均行长度和代码行数等结构化特征。不同语言样本采用独立文件存储，既保持整体架构统一又便于针对性研究。技术层面采用列式存储的Parquet格式，在14GB总容量下实现快速读写，特别适合大规模机器学习任务中对海量代码片段的流式处理需求。

使用方法

该数据集通过Hugging Face平台提供两种访问方式：使用datasets库可直接加载完整数据集或特定语言子集，支持流式传输以降低内存消耗；也可手动下载单个Parquet文件进行本地处理。典型应用场景包括：代码补全模型的训练需加载完整多语言数据，而特定语言分析则可选择对应子集。数据加载后，每个样本包含代码内容及质量元数据，研究者可直接用于特征提取或模型输入，其标准化结构显著降低了数据预处理复杂度。

背景与挑战

背景概述

Filtered-StarCoder-Dataset-Mini数据集是2025年由Jugal Gajjar等人基于StarCoder原始数据集构建的多语言代码资源库，旨在为机器学习和代码分析研究提供高质量的标准化语料。该数据集覆盖C、C++、Python等12种主流编程语言，通过严格的统计分析和离群值剔除，实现了代码样本在行长度、文件规模等维度的标准化处理。作为代码智能领域的重要基础设施，其多语言覆盖特性和质量管控机制为代码生成、缺陷检测等研究方向提供了基准测试平台，推动了编程语言处理技术的跨语言泛化能力研究。

当前挑战

构建过程中面临代码质量评估标准化的核心挑战，需平衡不同语言语法特性的差异性，如Rust的宏扩展与Python的缩进规则对行长度统计的影响。数据清洗阶段采用IQR方法消除离群值时，需解决长代码片段（如Rust平均190行）与短代码（如Ruby平均34行）的阈值设定矛盾。在应用层面，多语言代码的联合建模存在表征对齐难题，各语言特有的语法结构导致模型难以学习跨语言的通用模式。此外，原始数据中的注释比例、编码风格差异等潜在噪声因素，仍需更精细的预处理策略进行规范化。

常用场景

经典使用场景

在代码智能研究领域，Filtered-StarCoder-Dataset-Mini数据集为多语言代码理解与生成任务提供了标准化的基准测试平台。其经过严格筛选的12种编程语言样本，特别适用于训练跨语言的神经代码表示模型，例如在代码补全、语法纠错等场景中，研究者可利用其均匀分布的样本特征构建更具泛化能力的算法。

衍生相关工作

该数据集已催生多个标志性研究成果，包括基于对比学习的代码嵌入模型StarEncoder，以及跨语言代码克隆检测系统PolySim。在ICLR2024会议上，有团队利用其构建的预训练-微调范式刷新了代码摘要生成任务的SOTA性能，验证了数据质量对模型性能的关键影响。

数据集最近研究