Novora/CodeClassifier_v1
收藏Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Novora/CodeClassifier_v1
下载链接
链接失效反馈官方服务:
资源简介:
Code Classifier Dataset v1数据集包含从GitHub收集的中高质量数据,用于编程代码语言的文本分类任务。数据集包括GitHub支持的31种主要语言的列表、语言标识符和相关的文件扩展名,以及根据文件扩展名分类的编程代码文本和语言。
Code Classifier Dataset v1数据集包含从GitHub收集的中高质量数据,用于编程代码语言的文本分类任务。数据集包括GitHub支持的31种主要语言的列表、语言标识符和相关的文件扩展名,以及根据文件扩展名分类的编程代码文本和语言。
提供机构:
Novora
原始信息汇总
Code Classifier Dataset v1 概述
数据集描述
- 目的: 用于编程代码语言分类的文本分类任务。
- 数据来源: 从GitHub收集的中高质量数据。
数据集组件
- 语言支持: 包含根据TIOBE指数排名前31的编程语言。
- 语言标识与文件扩展名: 提供这些语言的标识符及对应的文件扩展名。
- 编程代码文本与分类: 根据GitHub基于文件扩展名的分类,提供编程代码文本及其对应的语言分类。



