pharaouk/SPP_30K_reasoning_tasks
收藏数据集概述
数据集信息
特征
- type: 数据类型为
int64 - instruction: 数据类型为
string - input: 数据类型为
string - output: 数据类型为
string
数据分割
- train: 包含 44,253,001 字节,89,898 个样本
下载和数据大小
- 下载大小: 10,073,876 字节
- 数据集大小: 44,253,001 字节
任务类别
- 文本生成
- 对话
- 文本到文本生成
语言
- 英语
标签
- 代码
- Python
- 推理
数据集名称
- SPP python reasoning tasks
数据集摘要
该数据集是 Synthetic Python Problems(SPP) Dataset 的增强版本。数据集从原始数据子集中去重并使用 Python 解释器验证(SPP_30k_verified.jsonl)。原始数据集包含小型 Python 函数,这些函数包含一个带有函数功能描述和调用示例的文档字符串。
当前数据集包括三种不同的任务:
- 类型 1: 输入代码并要求模型生成一些示例调用及其预期返回值。
- 类型 2: 输入描述和示例调用,要求模型编写函数。
- 类型 3: 输入函数和示例调用(不包含预期值),要求模型编写函数应返回的内容。
示例
任务 1
python INSTRUCTION: Execute the following function with several example calls, showing the values returned in each case. INPUT: def lowest_prime_factor(n): smallest = 2 while(n % smallest!= 0): smallest+=1 return smallest
OUTPUT: Sure, here you have several example calls along the return values they will generate. """
lowest_prime_factor(12) 2 lowest_prime_factor(14) 2 lowest_prime_factor(8) 2 """
任务 2
python INSTRUCTION: Follow the task given and refer to the provided calling examples as you create the functions body. INPUT: Find the smallest prime factor of a given number. Examples:
lowest_prime_factor(12) 2 lowest_prime_factor(14) 2 lowest_prime_factor(8) 2 OUTPUT: Of course, heres a function implementation based on the provided calling examples and task. """ python def lowest_prime_factor(n): smallest = 2 while(n % smallest!= 0): smallest+=1 return smallest """
任务 3
python INSTRUCTION: Examine the given function and the accompanying instance function calls, and outline the specific output generated by each call. INPUT: def lowest_prime_factor(n): smallest = 2 while(n % smallest!= 0): smallest+=1 return smallest
Function calls:
lowest_prime_factor(12) lowest_prime_factor(14) lowest_prime_factor(8) OUTPUT: Sure thing, here you have the specific output generated by each function call. lowest_prime_factor(12) 2 lowest_prime_factor(14) 2 lowest_prime_factor(8) 2
语言
- 数据集为英语。
数据分割
- 仅包含训练集。
数据集创建
- 创建时间:2023年8月
创建理由
- 该数据集旨在提高大型语言模型(LLMs)对 Python 3 推理/理解能力。
源数据
- 源数据集可在 Synthetic Python Problems(SPP) Dataset 找到。
注释
- 数据集包含 instruction、input、output 和 type 列。
- type 列指示任务类型(1到3)。
注释过程
- 响应是通过解析函数的文档字符串生成的。



