five

wuyetao/spp

收藏
Hugging Face2023-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wuyetao/spp
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约450,000个合成的Python编程问题,每个问题包括任务描述、1-3个示例、代码解决方案和1-3个测试用例。数据集由CodeGeeX-13B模型生成,并且其中一部分数据已经通过Python解释器验证并去重,这部分数据存储在`SPP_30k_verified.jsonl`文件中。数据集以.jsonl格式(每行一个json对象)发布,并作为论文《Self-Learning to Improve Code Generation with Interpreter》的一部分发布。
提供机构:
wuyetao
原始信息汇总

Synthetic Python Problems(SPP) Dataset

概述

  • 数据集名称: Synthetic Python Problems(SPP) Dataset
  • 数据量: 约45万条合成Python编程问题
  • 数据格式: .jsonl(每行一个JSON对象)
  • 许可证: cc-by-4.0

数据内容

  • 每个Python问题包含:
    • 任务描述
    • 1-3个示例
    • 代码解决方案
    • 1-3个测试用例

数据处理

  • 部分数据已通过Python解释器验证并去重,对应文件为SPP_30k_verified.jsonl

发布背景

  • 该数据集作为论文《Self-Learning to Improve Code Generation with Interpreter》(Yetao et. al., 2023)的一部分发布
  • 数据集由CodeGeeX-13B模型生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作