KrisPi/PythonTutor-LIMA-Finetune

Name: KrisPi/PythonTutor-LIMA-Finetune
Creator: KrisPi
Published: 2023-11-18 20:03:24
License: 暂无描述

Hugging Face2023-11-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/KrisPi/PythonTutor-LIMA-Finetune

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于LIMA微调，基于Phind模型，旨在改进Python代码的可读性和HumanEval结果。数据集包含1050行数据，分别来自LIMA Python Tutor、LeetCode提交、Airoboros coding/python、Airoboros orca和Airoboros COT+TOM。数据集的处理包括格式化输出以适应新的系统提示，过滤超过1024个标记的行，并从中采样最大的行。

提供机构：

KrisPi

原始信息汇总

数据集概述

数据集目的

该数据集用于在Phind模型基础上进行LIMA微调，旨在实现以下目标：

引入新的系统提示，偏好使用每个函数下的文档字符串，即使不合理也使用多个函数，并对每一行代码进行注释，大幅减少代码块前后的解释。
提高初级Python开发者的可读性，并默认进行逐步推理以改善代码和HumanEval结果。

数据集组成

数据集包含1050行数据，具体分配如下：

300行：LIMA Python Tutor
200行：LeetCode提交
250行：Airoboros编码/Python
150行：Airoboros orca
150行：Airoboros COT+TOM

数据处理

数据集的处理步骤包括：

格式化输出以引入新的系统提示。
格式化LeetCode提交为类似Phind的提示格式。
对每个数据进行分词，并过滤掉Token数超过1024的数据。
从剩余行中采样200个最大输出。
以类似方式格式化Airoboros 2.2.1数据集，选择特定类别和条件下的数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集