jtatman/combined_coder_python
收藏Hugging Face2024-06-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jtatman/combined_coder_python
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过合并多个较小的Python代码数据集构建而成的,格式被更改为系统、指令和输出。数据集的特征包括输出、指令和输入,其中输入是一个字符串序列。数据集的大小在10万到100万之间,主要用于文本生成任务。数据集的来源包括多个公开的Python代码数据集,如Evol-Instruct-Code-80k-v1、dolphin-coder等。
该数据集是通过合并多个较小的Python代码数据集构建而成的,格式被更改为系统、指令和输出。数据集的特征包括输出、指令和输入,其中输入是一个字符串序列。数据集的大小在10万到100万之间,主要用于文本生成任务。数据集的来源包括多个公开的Python代码数据集,如Evol-Instruct-Code-80k-v1、dolphin-coder等。
提供机构:
jtatman
原始信息汇总
数据集概述
数据特征
- output: 数据类型为字符串。
- instruction: 数据类型为字符串。
- system: 数据类型为字符串。
- index_level_0: 数据类型为整数。
数据分割
- train: 包含559515个样本,占用926742763字节。
数据大小
- 下载大小: 350076738字节。
- 数据集大小: 926742763字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。
任务类别
- text-generation
标签
- code
- python
大小类别
- 100K<n<1M
数据来源
- dataset1: nickrosh/Evol-Instruct-Code-80k-v1
- dataset2: ehartford/dolphin-coder
- dataset3: iamtarun/python_code_instructions_18k_alpaca
- dataset4: iamtarun/python_code_instructions_18k_alpaca
- dataset5: Vezora/Tested-22k-Python-Alpaca
- dataset6: mlabonne/Evol-Instruct-Python-26k
- dataset7: KrisPi/PythonTutor-Evol-1k-DPO-GPT4_vs_35
- dataset8: KonradSzafer/stackoverflow_python_preprocessed
- dataset9: ml6team/the-stack-smol-python
- dataset10: Nan-Do/instructional_code-search-net-python
- dataset11: iamtarun/code_contest_python3_alpaca



