five

Magicoder-Evol-Instruct-110K

收藏
arXiv2025-09-30 收录
下载链接:
https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是对evol-codealpaca-v1的净化版本,专门用于代码生成任务。它还被用于评估像Mistral-7B和DeepSeek-Coder-Base-6.7B这样的模型。该数据集包含110K个样本,其任务是代码生成。

This dataset is a cleaned variant of evol-codealpaca-v1, specifically designed for code generation tasks. It is also utilized to evaluate models such as Mistral-7B and DeepSeek-Coder-Base-6.7B. This dataset contains 110K samples, with all tasks focusing on code generation.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Magicoder-Evol-Instruct-110K是一个代码生成数据集,包含约11.1万条指令-输出对,基于CodeAlpaca_20K通过GPT-4模型和10种增强策略生成。数据集主要用于训练代码大语言模型,支持中英文指令,涵盖多种编程任务,旨在复现WizardCoder等模型并测试数据增强方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作