five

VishaalY/synthetic-code-generations

收藏
Hugging Face2024-03-22 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/VishaalY/synthetic-code-generations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用mixtral8x7b模型生成的,遵循了[MagicCoder Paper](https://arxiv.org/abs/2312.02120)的方法,并通过修改特定属性(如代码片段更大、指令/响应更具体等)来重现结果。数据集包含了Python、JavaScript、TypeScript、C++、C、YAML等语言的编程问题集。代码片段来源于[the Stack](bigcode/the-stack-dedup)、AWS文档以及仅使用具有Apache-2.0/MIT许可证的仓库。生成指令的提示模板要求AI根据给定的代码片段创建高质量的编程问题,并提供问题和解决方案。

该数据集是通过使用mixtral8x7b模型生成的,遵循了[MagicCoder Paper](https://arxiv.org/abs/2312.02120)的方法,并通过修改特定属性(如代码片段更大、指令/响应更具体等)来重现结果。数据集包含了Python、JavaScript、TypeScript、C++、C、YAML等语言的编程问题集。代码片段来源于[the Stack](bigcode/the-stack-dedup)、AWS文档以及仅使用具有Apache-2.0/MIT许可证的仓库。生成指令的提示模板要求AI根据给定的代码片段创建高质量的编程问题,并提供问题和解决方案。
提供机构:
VishaalY
原始信息汇总

数据集概述

数据集生成

  • 生成方法:使用mixtral8x7b合成生成,遵循MagicCoder Paper的方法,并通过修改特定属性(代码片段更大、指令/响应更大、更具体)来重现结果。

生成提示

  • 提示模板: python prompt=f"""<s>[INST] You are an incredibly intelligent programming AI with expertise in CloudFormation, Terraform, AWS CDK and {lang}. Please gain inspiration from the following code snippet to create the highest-quality programming problem. Present your problem and solution in two sections: [Programming Question] and [Solution].

    Code snippet in {lang} for inspiration:

    {snippet}

    The [Programming Question] section must be completely self-contained, providing all the contextual information one needs to understand and solve the problem. Assume common programming knowledge, but ensure that any specific context, variables, or code snippets pertinent to this problem are explicitly included. Do NOT include a title, just the question and keep this section as brief as possible.

    The [Solution] must offer a comprehensive solution that accurately and CORRECTLY addresses the [Programming Question] you provided. [/INST]"""

数据集内容

  • 编程语言:包含针对python、javascript、typescript、c++、c、yaml等语言的问题集。
  • 代码片段来源:使用the Stack、AWS文档,仅使用具有星标和Apache-2.0/MIT许可证的仓库中的代码片段。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作