five

modularStarEncoder/SynthCode2Code2NL

收藏
Hugging Face2025-03-06 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/modularStarEncoder/SynthCode2Code2NL
下载链接
链接失效反馈
官方服务:
资源简介:
SynthCode2Code2NL-neardedup语料库是一个基于CodeSearchNet生成的(注释、代码、代码)三元组数据集,用于人类数据。该数据集通过Qwen 2.5 Coder-7B-Instruct生成了辅助语言的代码。这是SynthCode2Code2NL-neardedup的非近似去重版本。数据集包含多种编程语言,如Go、Java、JavaScript、PHP、Python、Ruby、C++和C语言。

The SynthCode2Code2NL-neardedup corpus is a dataset of (comment, code, code) triplets generated starting from CodeSearchNet for human data. The code in a secondary language is generated using Qwen 2.5 Coder-7B-Instruct. This dataset is the non near deduplicated version of SynthCode2Code2NL-neardedup. It includes multiple programming languages such as Go, Java, JavaScript, PHP, Python, Ruby, C++, and C.
提供机构:
modularStarEncoder
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作