CodeFeedback-Python105K

Hugging Face2024-11-14 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/fxmeng/CodeFeedback-Python105K

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从`m-a-p/CodeFeedback-Filtered-Instruction`数据集中提取的一个子集，特别选择了104,848个用Python编写的样本。数据集包含两个主要特征：'query'和'response'，均为字符串类型。数据集分为一个训练集，包含104,848个样本。数据集适用于问答任务，语言为英语，样本数量在10,000到100,000之间。

This dataset is a subset extracted from the `m-a-p/CodeFeedback-Filtered-Instruction` dataset, with 104,848 Python-written samples specifically selected. It includes two core features: 'query' and 'response', both of string data type. The entire dataset is split into a single training set consisting of 104,848 samples. It is suitable for question answering tasks, with all samples written in English, and the number of samples ranges between 10,000 and 100,000.

创建时间：

2024-11-01

原始信息汇总

CodeFeedback-Python105K 数据集概述

数据集信息

特征:
- query: 字符串类型
- response: 字符串类型
分割:
- train: 包含 104,848 个样本，占用 232,791,997 字节
下载大小: 114,503,169 字节
数据集大小: 232,791,997 字节
配置:
- default: 包含训练数据文件 data/train-*
许可证: Apache 2.0
任务类别: 问答
语言: 英语
规模类别: 10K < n < 100K

数据集来源

该数据集是从 m-a-p/CodeFeedback-Filtered-Instruction 数据集中提取的子集，原始数据集包含 156,526 个样本。
原始数据集包含四个主要开源代码指令调优数据集的样本：
- Magicoder-OSS-Instruct
- Python code subset of ShareGPT
- Magicoder-Evol-Instruct
- Evol-Instruct-Code
该子集仅包含 104,848 个 Python 编写的样本。

引用

@article{zheng2024opencodeinterpreter, title={Opencodeinterpreter: Integrating code generation with execution and refinement}, author={Zheng, Tianyu and Zhang, Ge and Shen, Tianhao and Liu, Xueling and Lin, Bill Yuchen and Fu, Jie and Chen, Wenhu and Yue, Xiang}, journal={arXiv preprint arXiv:2402.14658}, year={2024} }

@article{meng2024pissa, title={Pissa: Principal singular values and singular vectors adaptation of large language models}, author={Meng, Fanxu and Wang, Zhaohui and Zhang, Muhan}, journal={arXiv preprint arXiv:2404.02948}, year={2024} }

搜集汇总

数据集介绍

构建方式

CodeFeedback-Python105K数据集是从`m-a-p/CodeFeedback-Filtered-Instruction`数据集中精心筛选而来，后者包含了156,526个样本。该数据集整合了四个开源代码指令调优数据集的内容，包括Magicoder-OSS-Instruct、Python code subset of ShareGPT、Magicoder-Evol-Instruct以及Evol-Instruct-Code。通过严格筛选，仅保留了其中104,848个使用Python编写的样本，确保了数据集的针对性和专业性。

特点

CodeFeedback-Python105K数据集以其专注于Python编程语言的特点而脱颖而出。数据集中的每个样本均包含一个查询（query）和对应的响应（response），涵盖了广泛的代码指令场景。其规模适中，包含超过10万条样本，适用于训练和评估代码生成与执行模型。数据集的语言为英语，确保了其在全球范围内的通用性，同时为研究者和开发者提供了高质量的代码指令数据资源。

使用方法

CodeFeedback-Python105K数据集主要用于代码生成与执行相关的研究和开发任务。用户可以通过HuggingFace平台轻松下载数据集，并利用其提供的训练集进行模型训练。数据集的结构清晰，包含查询和响应两个字段，便于直接应用于问答系统或代码生成模型的开发。此外，数据集的开源许可证（Apache-2.0）允许用户自由使用、修改和分发，为学术研究和商业应用提供了极大的灵活性。

背景与挑战

背景概述

CodeFeedback-Python105K数据集是近年来在代码生成与执行领域的重要资源，由多个知名开源代码指令调优数据集整合而成。该数据集创建于2024年，主要研究人员包括Zheng Tianyu、Meng Fanxu等，其核心研究问题聚焦于通过代码生成与执行的结合，提升代码反馈与优化的效率。数据集从Magicoder-OSS-Instruct、ShareGPT的Python代码子集、Magicoder-Evol-Instruct以及Evol-Instruct-Code等四个数据集中精选了104,848条Python代码样本，旨在为代码生成模型提供高质量的指令数据。该数据集在代码生成、执行与优化领域具有重要影响力，为相关研究提供了丰富的实验基础。

当前挑战

CodeFeedback-Python105K数据集在解决代码生成与执行问题的过程中面临多重挑战。首先，代码生成模型的反馈机制需要高度精确的指令数据，而现有数据集中可能存在噪声或不一致性问题，影响模型性能。其次，在构建过程中，如何从多个来源的数据集中筛选出高质量的Python代码样本，并确保其语义一致性与实用性，是一项复杂且耗时的任务。此外，代码生成与执行的多模态特性要求数据集能够涵盖多样化的编程场景，这对数据的多样性与覆盖范围提出了更高要求。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练与优化提出了更高的技术门槛。

常用场景

经典使用场景

CodeFeedback-Python105K数据集在代码生成与反馈领域具有广泛的应用，特别是在Python编程语言的指令调优和代码生成任务中。该数据集通过整合多个开源代码指令数据集，提供了一个高质量的Python代码指令集合，能够有效支持代码生成模型的训练与评估。研究人员可以利用该数据集进行代码生成模型的微调，提升模型在生成Python代码时的准确性和效率。

解决学术问题

CodeFeedback-Python105K数据集解决了代码生成领域中指令调优数据稀缺的问题。通过整合多个高质量的开源代码指令数据集，该数据集为研究人员提供了一个丰富的Python代码指令集合，能够有效支持代码生成模型的训练与评估。这不仅提升了模型在生成Python代码时的准确性和效率，还为代码生成与执行、代码优化等研究提供了重要的数据支持。

衍生相关工作

CodeFeedback-Python105K数据集衍生了一系列经典研究工作，如《Opencodeinterpreter: Integrating code generation with execution and refinement》和《Pissa: Principal singular values and singular vectors adaptation of large language models》。这些研究利用该数据集进行代码生成模型的训练与优化，推动了代码生成与执行、代码优化等领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集