five

tokyotech-llm/swallow-code

收藏
Hugging Face2026-03-01 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/tokyotech-llm/swallow-code
下载链接
链接失效反馈
官方服务:
资源简介:
SwallowCode是一个包含约161亿个Python代码标记的高质量代码数据集。该数据集通过语法验证、pylint风格过滤、风格引导代码重写(SGCR)和自包含优化代码重写(SCOR)的四阶段管道处理,以提高大型语言模型在程序合成和代码生成方面的性能。

SwallowCode is a high-quality code dataset containing approximately 16.1 billion Python code tokens. The dataset is processed through a four-stage pipeline including syntax validation, pylint style filtering, style-guided code rewriting (SGCR), and self-contained optimization code rewriting (SCOR) to enhance the performance of large language models in program synthesis and code generation.
提供机构:
tokyotech-llm
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作