five

swallow-code|程序合成数据集|代码生成数据集

收藏
huggingface2025-05-07 更新2025-05-08 收录
程序合成
代码生成
下载链接:
https://huggingface.co/datasets/tokyotech-llm/swallow-code
下载链接
链接失效反馈
资源简介:
SwallowCode是一个包含约161亿个Python代码标记的高质量代码数据集,通过四阶段管道处理,包括语法验证、pylint风格过滤、风格引导代码重写和自我包含优化重写,旨在提升大型语言模型在程序合成和代码生成任务上的性能。
提供机构:
tokyotech-llm
创建时间:
2025-05-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
SwallowCode数据集作为代码生成领域的高质量资源,其构建过程体现了严谨的工程化思维。基于The-Stack-v2-train-smol-ids的原始Python代码库,研究团队设计了四阶段处理流程:首先通过语法验证剔除无效代码片段,随后采用pylint工具进行代码风格筛选,继而运用Llama-3.3-70B-Instruct模型实施风格引导重写(SGCR),最终完成自包含优化重写(SCOR)。这种分层递进的构建策略,使得原始4100万样本经过10.6%的语法过滤和34.3%的风格筛选后,形成2410万高质量样本,再通过大语言模型的重写优化,最终产出包含161亿token的精炼数据集。
特点
该数据集最显著的特征在于其双重优化机制:在代码风格维度,严格遵循Google Python风格指南确保格式统一;在语义质量层面,通过算法优化和教学性改造提升代码的实用价值。数据集涵盖英文和日文注释,并以JSONL格式存储,便于机器学习管道处理。相较于同类数据集,SwallowCode在HumanEval基准测试中展现出17个百分点的性能提升,这得益于其独特的自包含样本设计,使得每个代码片段都能独立呈现完整的编程概念。
使用方法
使用者可通过HuggingFace平台获取不同处理阶段的子集,其中exp11-scor目录包含最终优化版本。数据集采用Llama 3.3社区许可协议,适用于大语言模型的持续预训练场景。研究人员建议将SwallowCode作为代码子集(约占总训练数据的16%)与其他语料混合训练,实践表明这种组合方式能显著提升模型在程序合成任务中的表现。对于特定研究方向,ablation目录提供的中间版本数据可用于对比实验,分析各处理阶段对模型性能的影响。
背景与挑战
背景概述
SwallowCode数据集由东京工业大学的研究团队于2025年发布,旨在提升大型语言模型在程序合成和代码生成任务中的表现。该数据集基于The-Stack-v2-train-smol-ids中的Python代码,通过四阶段处理流程(语法验证、风格过滤、风格引导代码重写和自包含优化重写)构建而成,最终包含约161亿个高质量代码标记。作为开源社区的重要贡献,SwallowCode不仅为代码生成研究提供了基准数据集,其创新的数据清洗方法也为后续研究提供了重要参考。该数据集的相关研究成果已发表在arXiv预印本平台,展示了在HumanEval等基准测试上显著优于同类数据集的性能表现。
当前挑战
在解决代码生成领域的挑战方面,SwallowCode主要应对三个核心问题:代码质量参差不齐、风格不一致以及算法效率低下。数据构建过程中面临多重技术挑战,包括从海量原始数据中精确识别语法错误(约10.6%的过滤率)、通过pylint实现自动化风格评估(34.3%的样本被剔除)、以及确保LLM重写过程保持语义一致性。此外,数据集可能继承源数据的偏见,如特定编程模式的过度代表,且目前仅支持Python语言,这些限制为后续研究指明了改进方向。
常用场景
经典使用场景
在程序合成与代码生成领域,SwallowCode数据集通过其高质量的Python代码样本,为大型语言模型(LLM)的预训练与微调提供了理想素材。该数据集特别适用于研究代码风格一致性、算法效率优化以及自包含代码片段的生成,成为提升模型在HumanEval等基准测试中表现的关键资源。其多阶段处理流程确保了代码的语法正确性与风格统一,为模型训练设立了新的质量标准。
解决学术问题
SwallowCode针对代码数据集普遍存在的噪声问题、风格不一致性以及教育价值缺失等学术挑战,提出了系统性解决方案。通过语法验证、静态检查、风格引导重写(SGCR)和自包含优化重写(SCOR)四阶段流程,该数据集显著提升了代码数据的教学适用性与算法示范价值。实验表明,基于该数据训练的模型在HumanEval测试中实现了17分以上的性能提升,为代码生成研究设立了新的基准。
衍生相关工作
SwallowCode的发布催生了多项创新研究,包括基于其SGCR流程的通用代码风格迁移框架、结合SCOR方法的算法教学系统等。相关衍生工作显著推进了代码质量评估指标的标准化进程,其中LLM辅助的代码评分机制已成为新兴研究热点。该数据集与其姊妹项目SwallowMath共同构成了STEM领域语言模型训练的重要基准体系。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作