wuyetao/spp
收藏Hugging Face2023-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wuyetao/spp
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约450,000个合成的Python编程问题,每个问题包括任务描述、1-3个示例、代码解决方案和1-3个测试用例。数据集由CodeGeeX-13B模型生成,并且其中一部分数据已经通过Python解释器验证并去重,这部分数据存储在`SPP_30k_verified.jsonl`文件中。数据集以.jsonl格式(每行一个json对象)发布,并作为论文《Self-Learning to Improve Code Generation with Interpreter》的一部分发布。
提供机构:
wuyetao
原始信息汇总
Synthetic Python Problems(SPP) Dataset
概述
- 数据集名称: Synthetic Python Problems(SPP) Dataset
- 数据量: 约45万条合成Python编程问题
- 数据格式: .jsonl(每行一个JSON对象)
- 许可证: cc-by-4.0
数据内容
- 每个Python问题包含:
- 任务描述
- 1-3个示例
- 代码解决方案
- 1-3个测试用例
数据处理
- 部分数据已通过Python解释器验证并去重,对应文件为
SPP_30k_verified.jsonl
发布背景
- 该数据集作为论文《Self-Learning to Improve Code Generation with Interpreter》(Yetao et. al., 2023)的一部分发布
- 数据集由CodeGeeX-13B模型生成



