stack-edu
收藏Hugging Face2025-03-20 更新2025-03-21 收录
下载链接:
https://huggingface.co/datasets/HuggingFaceTB/stack-edu
下载链接
链接失效反馈官方服务:
资源简介:
Stack-Edu是一个从The Stack v2数据集中筛选出的1250亿token的教育性代码数据集,旨在用于语言模型的训练。它包含了15种主要编程语言的教育性编程内容,通过基于StarEncoder模型的分类器进行了筛选,以确保内容的高质量。数据集可以按照提供的SWHIDs从Software Heritage的S3 bucket下载。
提供机构:
Hugging Face TB Research
创建时间:
2025-03-18
搜集汇总
数据集介绍

构建方式
Stack-Edu数据集的构建基于The Stack v2数据集,通过分类器过滤策略精选出高质量的教育编程内容。该策略借鉴了FineWeb-Edu的方法,使用StarEncoder模型对15种主要编程语言进行语言特定分类器的训练,并通过Llama3-70B-Instruct生成的合成注释进行优化。最终,通过设定过滤阈值,保留了最具教育价值的代码片段,特别针对Java语言调整了阈值以确保最佳性能。
特点
Stack-Edu数据集包含125B个教育代码的token,覆盖15种主要编程语言,如Python、Cpp、Java等。该数据集在MultiPL-E基准测试中显示出对StarCoder2Data的持续改进,特别是在教育内容的深度和广度上。数据集中的每个条目都包含代码的唯一标识、编程语言、存储库名称、路径、编码方式、字节长度、评分及检测到的许可证信息,确保了数据的多样性和实用性。
使用方法
使用Stack-Edu数据集时,用户需通过Hugging Face平台加载数据集,并利用提供的SWHIDs从Software Heritage的S3存储桶下载实际代码内容。数据集支持多线程处理,用户可以通过Python脚本高效地下载和过滤数据。此外,数据集的使用需遵守The Stack v2的数据许可协议,确保数据使用的合规性。
背景与挑战
背景概述
Stack-Edu数据集是一个包含1250亿个教育代码标记的数据集,源自The Stack v2,并经过精心筛选,旨在为语言模型的训练提供高质量的教育编程内容。该数据集由HuggingFace团队开发,主要用于支持StarCoder2模型的训练。通过基于分类器的过滤策略,Stack-Edu保留了最具教育价值的编程内容,显著提升了在MultiPL-E基准测试中的表现。该数据集的创建标志着在编程语言模型训练领域的一个重要进展,尤其是在多语言编程教育内容的筛选与优化方面。
当前挑战
Stack-Edu数据集在构建过程中面临的主要挑战包括:1) 如何从海量的代码数据中筛选出高质量的教育内容,这需要开发高效的分类器并进行复杂的标注工作;2) 数据集的构建依赖于多个编程语言的特定分类器,这些分类器的训练和优化需要大量的计算资源和时间;3) 数据集的合规性问题,由于代码内容涉及版权和许可证问题,确保数据的合法使用是一个重要的挑战。此外,数据集的下载和预处理过程也较为复杂,尤其是在处理大规模数据时,如何高效地下载和解析数据文件是一个技术难题。
常用场景
经典使用场景
Stack-Edu数据集在编程语言模型的训练中展现了其独特的价值。该数据集通过精选的教育性代码内容,为语言模型提供了高质量的编程语言学习材料。特别是在多语言编程模型的训练中,Stack-Edu通过其丰富的语言覆盖和高质量的内容,显著提升了模型在MultiPL-E基准测试中的表现。
实际应用
在实际应用中,Stack-Edu数据集被广泛用于开发智能编程助手和教育工具。通过利用该数据集训练的语言模型,开发者能够构建出更加智能和高效的编程辅助工具,帮助程序员快速学习和掌握多种编程语言。此外,该数据集还为在线编程教育平台提供了丰富的教学资源。
衍生相关工作
Stack-Edu数据集的推出催生了一系列相关研究工作,特别是在编程语言模型的优化和扩展方面。基于该数据集的研究成果,如StarCoder2模型的改进版本,进一步推动了编程语言模型的发展。此外,该数据集还激发了更多关于编程教育内容自动生成和评估的研究,为编程教育领域带来了新的研究方向。
以上内容由遇见数据集搜集并总结生成



