NickyNicky/Code-290k-labels-programming_languages-NO_Chatgpt
收藏Hugging Face2024-03-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/Code-290k-labels-programming_languages-NO_Chatgpt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含编程代码片段的对话内容、检测到的语言以及多种编程语言的评分。数据集的构建过程中,使用了自动化文本处理技术和特定语言模式来标记编程语言,未使用高级语言模型如ChatGPT或LLMs。数据处理使用了pandas库,并通过并行处理提高了效率。最后,通过matplotlib库生成了编程语言分布的饼图。
该数据集包含编程代码片段的对话内容、检测到的语言以及多种编程语言的评分。数据集的构建过程中,使用了自动化文本处理技术和特定语言模式来标记编程语言,未使用高级语言模型如ChatGPT或LLMs。数据处理使用了pandas库,并通过并行处理提高了效率。最后,通过matplotlib库生成了编程语言分布的饼图。
提供机构:
NickyNicky
原始信息汇总
数据集信息
特征
- conversations:
- from: 数据类型为字符串
- value: 数据类型为字符串
- lenguaje_detectado: 数据类型为字符串
- puntuaciones:
- C: 数据类型为int64
- C#: 数据类型为int64
- C++: 数据类型为int64
- Go: 数据类型为int64
- HTML: 数据类型为int64
- Java: 数据类型为int64
- JavaScript: 数据类型为int64
- Kotlin: 数据类型为int64
- PHP: 数据类型为int64
- Python: 数据类型为int64
- Ruby: 数据类型为int64
- Rust: 数据类型为int64
- Scala: 数据类型为int64
- Swift: 数据类型为int64
- TypeScript: 数据类型为int64
数据分割
- train:
- 字节数: 580134842
- 样本数: 289094
数据大小
- 下载大小: 271854323
- 数据集大小: 580134842
配置
- default:
- data_files:
- split: train
- path: data/train-*
- data_files:
语言
- en



