five

pharaouk/SPP_30K_reasoning_tasks

收藏
Hugging Face2024-04-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/pharaouk/SPP_30K_reasoning_tasks
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个增强版的Synthetic Python Problems(SPP) Dataset,经过去重和Python解释器验证。数据集包含三种任务类型:1) 给出代码并让模型生成示例调用及预期返回值;2) 给出描述和示例调用并让模型编写函数;3) 给出函数和示例调用(无预期值)并让模型编写函数应返回的值。数据集仅包含训练集,没有其他分割。数据集的创建目的是提高LLM对Python 3的理解和推理能力。
提供机构:
pharaouk
原始信息汇总

数据集概述

数据集信息

特征

  • type: 数据类型为 int64
  • instruction: 数据类型为 string
  • input: 数据类型为 string
  • output: 数据类型为 string

数据分割

  • train: 包含 44,253,001 字节,89,898 个样本

下载和数据大小

  • 下载大小: 10,073,876 字节
  • 数据集大小: 44,253,001 字节

任务类别

  • 文本生成
  • 对话
  • 文本到文本生成

语言

  • 英语

标签

  • 代码
  • Python
  • 推理

数据集名称

  • SPP python reasoning tasks

数据集摘要

该数据集是 Synthetic Python Problems(SPP) Dataset 的增强版本。数据集从原始数据子集中去重并使用 Python 解释器验证(SPP_30k_verified.jsonl)。原始数据集包含小型 Python 函数,这些函数包含一个带有函数功能描述和调用示例的文档字符串。

当前数据集包括三种不同的任务:

  1. 类型 1: 输入代码并要求模型生成一些示例调用及其预期返回值。
  2. 类型 2: 输入描述和示例调用,要求模型编写函数。
  3. 类型 3: 输入函数和示例调用(不包含预期值),要求模型编写函数应返回的内容。

示例

任务 1

python INSTRUCTION: Execute the following function with several example calls, showing the values returned in each case. INPUT: def lowest_prime_factor(n): smallest = 2 while(n % smallest!= 0): smallest+=1 return smallest

OUTPUT: Sure, here you have several example calls along the return values they will generate. """

lowest_prime_factor(12) 2 lowest_prime_factor(14) 2 lowest_prime_factor(8) 2 """

任务 2

python INSTRUCTION: Follow the task given and refer to the provided calling examples as you create the functions body. INPUT: Find the smallest prime factor of a given number. Examples:

lowest_prime_factor(12) 2 lowest_prime_factor(14) 2 lowest_prime_factor(8) 2 OUTPUT: Of course, heres a function implementation based on the provided calling examples and task. """ python def lowest_prime_factor(n): smallest = 2 while(n % smallest!= 0): smallest+=1 return smallest """

任务 3

python INSTRUCTION: Examine the given function and the accompanying instance function calls, and outline the specific output generated by each call. INPUT: def lowest_prime_factor(n): smallest = 2 while(n % smallest!= 0): smallest+=1 return smallest

Function calls:

lowest_prime_factor(12) lowest_prime_factor(14) lowest_prime_factor(8) OUTPUT: Sure thing, here you have the specific output generated by each function call. lowest_prime_factor(12) 2 lowest_prime_factor(14) 2 lowest_prime_factor(8) 2

语言

  • 数据集为英语。

数据分割

  • 仅包含训练集。

数据集创建

  • 创建时间:2023年8月

创建理由

  • 该数据集旨在提高大型语言模型(LLMs)对 Python 3 推理/理解能力。

源数据

注释

  • 数据集包含 instruction、input、output 和 type 列。
  • type 列指示任务类型(1到3)。

注释过程

  • 响应是通过解析函数的文档字符串生成的。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作