jtatman/combined_coder_python

Name: jtatman/combined_coder_python
Creator: jtatman
Published: 2024-06-29 17:13:46
License: 暂无描述

Hugging Face2024-06-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jtatman/combined_coder_python

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过合并多个较小的Python代码数据集构建而成的，格式被更改为系统、指令和输出。数据集的特征包括输出、指令和输入，其中输入是一个字符串序列。数据集的大小在10万到100万之间，主要用于文本生成任务。数据集的来源包括多个公开的Python代码数据集，如Evol-Instruct-Code-80k-v1、dolphin-coder等。

提供机构：

jtatman

原始信息汇总

数据集概述

数据特征

output: 数据类型为字符串。
instruction: 数据类型为字符串。
system: 数据类型为字符串。
index_level_0: 数据类型为整数。

数据分割

train: 包含559515个样本，占用926742763字节。

数据大小

下载大小: 350076738字节。
数据集大小: 926742763字节。

配置

default: 包含训练数据文件，路径为data/train-*。

任务类别

text-generation

大小类别

100K<n<1M

数据来源

dataset1: nickrosh/Evol-Instruct-Code-80k-v1
dataset2: ehartford/dolphin-coder
dataset3: iamtarun/python_code_instructions_18k_alpaca
dataset4: iamtarun/python_code_instructions_18k_alpaca
dataset5: Vezora/Tested-22k-Python-Alpaca
dataset6: mlabonne/Evol-Instruct-Python-26k
dataset7: KrisPi/PythonTutor-Evol-1k-DPO-GPT4_vs_35
dataset8: KonradSzafer/stackoverflow_python_preprocessed
dataset9: ml6team/the-stack-smol-python
dataset10: Nan-Do/instructional_code-search-net-python
dataset11: iamtarun/code_contest_python3_alpaca

5,000+

优质数据集

54 个

任务类型

进入经典数据集