Magicoder-Evol-Instruct-110K
收藏arXiv2025-09-30 收录
下载链接:
https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是对evol-codealpaca-v1的净化版本,专门用于代码生成任务。它还被用于评估像Mistral-7B和DeepSeek-Coder-Base-6.7B这样的模型。该数据集包含110K个样本,其任务是代码生成。
This dataset is a cleaned variant of evol-codealpaca-v1, specifically designed for code generation tasks. It is also utilized to evaluate models such as Mistral-7B and DeepSeek-Coder-Base-6.7B. This dataset contains 110K samples, with all tasks focusing on code generation.
搜集汇总
数据集介绍

背景与挑战
背景概述
Magicoder-Evol-Instruct-110K是一个代码生成数据集,包含约11.1万条指令-输出对,基于CodeAlpaca_20K通过GPT-4模型和10种增强策略生成。数据集主要用于训练代码大语言模型,支持中英文指令,涵盖多种编程任务,旨在复现WizardCoder等模型并测试数据增强方法。
以上内容由遇见数据集搜集并总结生成



