sarthak247/instruct-apr
收藏Hugging Face2024-01-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sarthak247/instruct-apr
下载链接
链接失效反馈官方服务:
资源简介:
APR数据集是一个基于指令的数据集,用于指导Codellama模型进行APR相关任务的微调。数据集包含三个字段:Instruction(指令)、Context(上下文/输入)和Response(响应)。指令通常是五种之一,用于指导模型如何根据提供的上下文和预期结果来预测和完成代码的缺失部分。上下文由<PRE>前缀代码<SUF>后缀代码<MID>组成,这些是Codellama的前缀、后缀和中间标记,但也可以根据模型替换为其他标记。响应是预测的响应,即代码中缺失的中间部分。
APR数据集是一个基于指令的数据集,用于指导Codellama模型进行APR相关任务的微调。数据集包含三个字段:Instruction(指令)、Context(上下文/输入)和Response(响应)。指令通常是五种之一,用于指导模型如何根据提供的上下文和预期结果来预测和完成代码的缺失部分。上下文由<PRE>前缀代码<SUF>后缀代码<MID>组成,这些是Codellama的前缀、后缀和中间标记,但也可以根据模型替换为其他标记。响应是预测的响应,即代码中缺失的中间部分。
提供机构:
sarthak247
原始信息汇总
数据集概述
任务类别
- 填充掩码(fill-mask)
语言
- 英语(en)
标签
- 代码(code)
数据集名称
- APR
数据集大小
- 100K<n<1M
数据集描述
该数据集用于指导调整Codellama模型,以完成基于APR的任务。
数据结构
数据集包含三个字段:
- Instruction:五个选定指令之一。
- Context:与指令一起提供的上下文/输入。包含
<PRE>前缀代码<SUF>后缀代码<MID>,这些是Codellama的前缀、后缀和中缀标记,但可以根据模型替换为其他标记。 - Response:预测的响应(即代码中缺失的部分)。
指令示例
提供的指令通常是以下之一:
- 给定一个带有上下文(前缀)和预期结果(后缀)的代码片段,预测并完成缺失部分,以确保提供上下文和预期结果之间的无缝集成。
- 在提供的上下文(前缀)和预期结果(后缀)之间插入缺失的逻辑,以确保代码的平滑过渡和逻辑流程。
- 在代码片段中实现缺失的功能,考虑提供的上下文和期望的结果。确保该功能与上下文和预期结果所指示的总体目标一致。
- 通过提供从已建立的上下文(前缀)逻辑上跟随并导致预期结果(后缀)的缺失行来继续代码的流程。
- 集成缺失的代码,以确保提供上下文和预期结果之间的连贯性和逻辑流程。考虑上下文中建立的变量、数据结构或条件,并确保它们在缺失部分中的适当利用。



