five

Novora/CodeClassifier_v1

收藏
Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Novora/CodeClassifier_v1
下载链接
链接失效反馈
官方服务:
资源简介:
Code Classifier Dataset v1数据集包含从GitHub收集的中高质量数据,用于编程代码语言的文本分类任务。数据集包括GitHub支持的31种主要语言的列表、语言标识符和相关的文件扩展名,以及根据文件扩展名分类的编程代码文本和语言。

Code Classifier Dataset v1数据集包含从GitHub收集的中高质量数据,用于编程代码语言的文本分类任务。数据集包括GitHub支持的31种主要语言的列表、语言标识符和相关的文件扩展名,以及根据文件扩展名分类的编程代码文本和语言。
提供机构:
Novora
原始信息汇总

Code Classifier Dataset v1 概述

数据集描述

  • 目的: 用于编程代码语言分类的文本分类任务。
  • 数据来源: 从GitHub收集的中高质量数据。

数据集组件

  • 语言支持: 包含根据TIOBE指数排名前31的编程语言。
  • 语言标识与文件扩展名: 提供这些语言的标识符及对应的文件扩展名。
  • 编程代码文本与分类: 根据GitHub基于文件扩展名的分类,提供编程代码文本及其对应的语言分类。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作