five

NickyNicky/Code-290k-labels-programming_languages-NO_Chatgpt

收藏
Hugging Face2024-03-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/Code-290k-labels-programming_languages-NO_Chatgpt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含编程代码片段的对话内容、检测到的语言以及多种编程语言的评分。数据集的构建过程中,使用了自动化文本处理技术和特定语言模式来标记编程语言,未使用高级语言模型如ChatGPT或LLMs。数据处理使用了pandas库,并通过并行处理提高了效率。最后,通过matplotlib库生成了编程语言分布的饼图。

该数据集包含编程代码片段的对话内容、检测到的语言以及多种编程语言的评分。数据集的构建过程中,使用了自动化文本处理技术和特定语言模式来标记编程语言,未使用高级语言模型如ChatGPT或LLMs。数据处理使用了pandas库,并通过并行处理提高了效率。最后,通过matplotlib库生成了编程语言分布的饼图。
提供机构:
NickyNicky
原始信息汇总

数据集信息

特征

  • conversations:
    • from: 数据类型为字符串
    • value: 数据类型为字符串
  • lenguaje_detectado: 数据类型为字符串
  • puntuaciones:
    • C: 数据类型为int64
    • C#: 数据类型为int64
    • C++: 数据类型为int64
    • Go: 数据类型为int64
    • HTML: 数据类型为int64
    • Java: 数据类型为int64
    • JavaScript: 数据类型为int64
    • Kotlin: 数据类型为int64
    • PHP: 数据类型为int64
    • Python: 数据类型为int64
    • Ruby: 数据类型为int64
    • Rust: 数据类型为int64
    • Scala: 数据类型为int64
    • Swift: 数据类型为int64
    • TypeScript: 数据类型为int64

数据分割

  • train:
    • 字节数: 580134842
    • 样本数: 289094

数据大小

  • 下载大小: 271854323
  • 数据集大小: 580134842

配置

  • default:
    • data_files:
      • split: train
      • path: data/train-*

语言

  • en
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作