five

jtatman/combined_coder_python

收藏
Hugging Face2024-06-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jtatman/combined_coder_python
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过合并多个较小的Python代码数据集构建而成的,格式被更改为系统、指令和输出。数据集的特征包括输出、指令和输入,其中输入是一个字符串序列。数据集的大小在10万到100万之间,主要用于文本生成任务。数据集的来源包括多个公开的Python代码数据集,如Evol-Instruct-Code-80k-v1、dolphin-coder等。

该数据集是通过合并多个较小的Python代码数据集构建而成的,格式被更改为系统、指令和输出。数据集的特征包括输出、指令和输入,其中输入是一个字符串序列。数据集的大小在10万到100万之间,主要用于文本生成任务。数据集的来源包括多个公开的Python代码数据集,如Evol-Instruct-Code-80k-v1、dolphin-coder等。
提供机构:
jtatman
原始信息汇总

数据集概述

数据特征

  • output: 数据类型为字符串。
  • instruction: 数据类型为字符串。
  • system: 数据类型为字符串。
  • index_level_0: 数据类型为整数。

数据分割

  • train: 包含559515个样本,占用926742763字节。

数据大小

  • 下载大小: 350076738字节。
  • 数据集大小: 926742763字节。

配置

  • default: 包含训练数据文件,路径为data/train-*

任务类别

  • text-generation

标签

  • code
  • python

大小类别

  • 100K<n<1M

数据来源

  • dataset1: nickrosh/Evol-Instruct-Code-80k-v1
  • dataset2: ehartford/dolphin-coder
  • dataset3: iamtarun/python_code_instructions_18k_alpaca
  • dataset4: iamtarun/python_code_instructions_18k_alpaca
  • dataset5: Vezora/Tested-22k-Python-Alpaca
  • dataset6: mlabonne/Evol-Instruct-Python-26k
  • dataset7: KrisPi/PythonTutor-Evol-1k-DPO-GPT4_vs_35
  • dataset8: KonradSzafer/stackoverflow_python_preprocessed
  • dataset9: ml6team/the-stack-smol-python
  • dataset10: Nan-Do/instructional_code-search-net-python
  • dataset11: iamtarun/code_contest_python3_alpaca
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作