five

KrisPi/PythonTutor-LIMA-Finetune

收藏
Hugging Face2023-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KrisPi/PythonTutor-LIMA-Finetune
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于LIMA微调,基于Phind模型,旨在改进Python代码的可读性和HumanEval结果。数据集包含1050行数据,分别来自LIMA Python Tutor、LeetCode提交、Airoboros coding/python、Airoboros orca和Airoboros COT+TOM。数据集的处理包括格式化输出以适应新的系统提示,过滤超过1024个标记的行,并从中采样最大的行。
提供机构:
KrisPi
原始信息汇总

数据集概述

数据集目的

该数据集用于在Phind模型基础上进行LIMA微调,旨在实现以下目标:

  • 引入新的系统提示,偏好使用每个函数下的文档字符串,即使不合理也使用多个函数,并对每一行代码进行注释,大幅减少代码块前后的解释。
  • 提高初级Python开发者的可读性,并默认进行逐步推理以改善代码和HumanEval结果。

数据集组成

数据集包含1050行数据,具体分配如下:

  • 300行:LIMA Python Tutor
  • 200行:LeetCode提交
  • 250行:Airoboros编码/Python
  • 150行:Airoboros orca
  • 150行:Airoboros COT+TOM

数据处理

数据集的处理步骤包括:

  1. 格式化输出以引入新的系统提示。
  2. 格式化LeetCode提交为类似Phind的提示格式。
  3. 对每个数据进行分词,并过滤掉Token数超过1024的数据。
  4. 从剩余行中采样200个最大输出。
  5. 以类似方式格式化Airoboros 2.2.1数据集,选择特定类别和条件下的数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作