stack-edu

Name: stack-edu
Creator: Hugging Face TB Research
Published: 2025-03-20 21:51:54
License: 暂无描述

Hugging Face2025-03-20 更新2025-03-21 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceTB/stack-edu

下载链接

链接失效反馈

官方服务：

资源简介：

Stack-Edu是一个从The Stack v2数据集中筛选出的1250亿token的教育性代码数据集，旨在用于语言模型的训练。它包含了15种主要编程语言的教育性编程内容，通过基于StarEncoder模型的分类器进行了筛选，以确保内容的高质量。数据集可以按照提供的SWHIDs从Software Heritage的S3 bucket下载。

提供机构：

Hugging Face TB Research

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

Stack-Edu数据集的构建基于The Stack v2数据集，通过分类器过滤策略精选出高质量的教育编程内容。该策略借鉴了FineWeb-Edu的方法，使用StarEncoder模型对15种主要编程语言进行语言特定分类器的训练，并通过Llama3-70B-Instruct生成的合成注释进行优化。最终，通过设定过滤阈值，保留了最具教育价值的代码片段，特别针对Java语言调整了阈值以确保最佳性能。

特点

Stack-Edu数据集包含125B个教育代码的token，覆盖15种主要编程语言，如Python、Cpp、Java等。该数据集在MultiPL-E基准测试中显示出对StarCoder2Data的持续改进，特别是在教育内容的深度和广度上。数据集中的每个条目都包含代码的唯一标识、编程语言、存储库名称、路径、编码方式、字节长度、评分及检测到的许可证信息，确保了数据的多样性和实用性。

使用方法

使用Stack-Edu数据集时，用户需通过Hugging Face平台加载数据集，并利用提供的SWHIDs从Software Heritage的S3存储桶下载实际代码内容。数据集支持多线程处理，用户可以通过Python脚本高效地下载和过滤数据。此外，数据集的使用需遵守The Stack v2的数据许可协议，确保数据使用的合规性。

背景与挑战

背景概述

Stack-Edu数据集是一个包含1250亿个教育代码标记的数据集，源自The Stack v2，并经过精心筛选，旨在为语言模型的训练提供高质量的教育编程内容。该数据集由HuggingFace团队开发，主要用于支持StarCoder2模型的训练。通过基于分类器的过滤策略，Stack-Edu保留了最具教育价值的编程内容，显著提升了在MultiPL-E基准测试中的表现。该数据集的创建标志着在编程语言模型训练领域的一个重要进展，尤其是在多语言编程教育内容的筛选与优化方面。

当前挑战

Stack-Edu数据集在构建过程中面临的主要挑战包括：1) 如何从海量的代码数据中筛选出高质量的教育内容，这需要开发高效的分类器并进行复杂的标注工作；2) 数据集的构建依赖于多个编程语言的特定分类器，这些分类器的训练和优化需要大量的计算资源和时间；3) 数据集的合规性问题，由于代码内容涉及版权和许可证问题，确保数据的合法使用是一个重要的挑战。此外，数据集的下载和预处理过程也较为复杂，尤其是在处理大规模数据时，如何高效地下载和解析数据文件是一个技术难题。

常用场景

经典使用场景

Stack-Edu数据集在编程语言模型的训练中展现了其独特的价值。该数据集通过精选的教育性代码内容，为语言模型提供了高质量的编程语言学习材料。特别是在多语言编程模型的训练中，Stack-Edu通过其丰富的语言覆盖和高质量的内容，显著提升了模型在MultiPL-E基准测试中的表现。

实际应用

在实际应用中，Stack-Edu数据集被广泛用于开发智能编程助手和教育工具。通过利用该数据集训练的语言模型，开发者能够构建出更加智能和高效的编程辅助工具，帮助程序员快速学习和掌握多种编程语言。此外，该数据集还为在线编程教育平台提供了丰富的教学资源。

衍生相关工作

Stack-Edu数据集的推出催生了一系列相关研究工作，特别是在编程语言模型的优化和扩展方面。基于该数据集的研究成果，如StarCoder2模型的改进版本，进一步推动了编程语言模型的发展。此外，该数据集还激发了更多关于编程教育内容自动生成和评估的研究，为编程教育领域带来了新的研究方向。

以上内容由遇见数据集搜集并总结生成