five

Pasta009/Instruction-Fusion-Code-v1

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Pasta009/Instruction-Fusion-Code-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Instruction Fusion数据集包含大约10万个用于代码生成的数据样本。这些样本是通过使用evol-codealpaca-v1的种子进行融合生成的,生成器为gpt-4-1106-preview。在微调时,应使用instruction和output进行监督式微调(SFT),而prompt1和prompt2是用于指令融合的种子指令。

Instruction Fusion数据集包含大约10万个用于代码生成的数据样本。这些样本是通过使用evol-codealpaca-v1的种子进行融合生成的,生成器为gpt-4-1106-preview。在微调时,应使用instruction和output进行监督式微调(SFT),而prompt1和prompt2是用于指令融合的种子指令。
提供机构:
Pasta009
原始信息汇总

Instruction Fusion Dataset

概述

  • 数据样本数量: 约100,000个
  • 数据融合来源: 使用evol-codealpaca-v1的种子进行融合
  • 生成器: gpt-4-1106-preview

微调

  • 使用字段: instruction 和 output 用于监督式微调(SFT)
  • 种子指令: prompt1 和 prompt2 用于指令融合

引用

若使用此数据集,请引用以下论文:

@article{guo2023instruction, title={Instruction fusion: Advancing prompt evolution through hybridization}, author={Guo, Weidong and Yang, Jiuding and Yang, Kaitong and Li, Xiangyang and Rao, Zhuwei and Xu, Yu and Niu, Di}, journal={arXiv preprint arXiv:2312.15692}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作