five

The-Stack

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/the-stack
下载链接
链接失效反馈
官方服务:
资源简介:
该堆栈包含超过6TB的许可源代码文件,涵盖358种编程语言。该数据集是作为BigCode项目的一部分创建的,BigCode项目是一个开放的科学合作项目,致力于代码的大型语言模型 (Code LLMs) 的负责任开发。堆栈用作代码llm的预训练数据集,即代码生成AI系统,该系统能够从自然语言描述以及其他代码片段合成程序。

This stack contains over 6TB of licensed source code files covering 358 programming languages. This dataset was created as part of the BigCode Project, an open scientific collaboration dedicated to the responsible development of code large language models (Code LLMs). The stack serves as a pre-training dataset for Code LLMs, which are code-generating AI systems capable of synthesizing programs from natural language descriptions and other code snippets.
提供机构:
OpenDataLab
创建时间:
2023-10-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
The-Stack是一个大规模的开源代码数据集,包含超过6TB的许可源代码文件,覆盖358种编程语言,专为训练代码生成AI系统(如大型语言模型)而设计。该数据集由Hugging Face和ServiceNow Research于2022年发布,作为BigCode项目的一部分,旨在支持代码生成和预训练任务,促进AI在编程领域的负责任发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作