five

中国移动多编程语言代码数据集

收藏
国家数据集管理服务平台2026-05-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=51a69bde358d6a4c5798cdee5ead112d
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集包含多编程语言的代码文本数据,涵盖Python、C、Java、C++、C#、Swift、Shell、Ruby、JavaScript、SQL、PHP、Go、Perl、Scala、CSS等主流编程语言的代码文件样本,覆盖信息技术编程场景中常见的代码表达形式。样本具有较强的编程语法属性和场景属性,适合用于代码生成模型训练、代码分类、语法校验、代码语义理解、智能代码补全及代码内容合规审核。

This dataset comprises code text data across multiple programming languages, including code file samples from mainstream programming languages such as Python, C, Java, C++, C#, Swift, Shell, Ruby, JavaScript, SQL, PHP, Go, Perl, Scala, CSS and others. It covers common code expression formats in information technology programming scenarios. The samples possess strong programming syntax attributes and scenario-specific attributes, making them suitable for code generation model training, code classification, syntax verification, code semantic understanding, intelligent code completion, and code content compliance auditing.
提供机构:
中移九天人工智能科技(北京)有限公司
创建时间:
2026-04-25
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个由中国移动提供的多编程语言代码文本集合,覆盖Python、C、Java、C++等多种主流编程语言,包含559GB的代码文件样本。它适用于代码生成模型训练、代码分类、语法校验、智能代码补全及代码内容合规审核等人工智能应用场景。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务