The-Stack
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/the-stack
下载链接
链接失效反馈官方服务:
资源简介:
该堆栈包含超过6TB的许可源代码文件,涵盖358种编程语言。该数据集是作为BigCode项目的一部分创建的,BigCode项目是一个开放的科学合作项目,致力于代码的大型语言模型 (Code LLMs) 的负责任开发。堆栈用作代码llm的预训练数据集,即代码生成AI系统,该系统能够从自然语言描述以及其他代码片段合成程序。
This stack contains over 6TB of licensed source code files covering 358 programming languages. This dataset was created as part of the BigCode Project, an open scientific collaboration dedicated to the responsible development of code large language models (Code LLMs). The stack serves as a pre-training dataset for Code LLMs, which are code-generating AI systems capable of synthesizing programs from natural language descriptions and other code snippets.
提供机构:
OpenDataLab
创建时间:
2023-10-11
搜集汇总
数据集介绍

背景与挑战
背景概述
The-Stack是一个大规模的开源代码数据集,包含超过6TB的许可源代码文件,覆盖358种编程语言,专为训练代码生成AI系统(如大型语言模型)而设计。该数据集由Hugging Face和ServiceNow Research于2022年发布,作为BigCode项目的一部分,旨在支持代码生成和预训练任务,促进AI在编程领域的负责任发展。
以上内容由遇见数据集搜集并总结生成



