five

chargoddard/commitpack-ft-instruct-rated

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chargoddard/commitpack-ft-instruct-rated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Octocode的CommitPackFT派生而来,并通过本地模型对指令-响应对进行了质量分析。数据集主要包含代码相关的指令和响应,且所有条目都应适应4096个标记的上下文窗口。数据集的默认配置中,Ruby、Python和JavaScript是最常见的语言。每个样本都来自具有宽松许可证的代码仓库,许可证信息在样本的`license`字段中提供。
提供机构:
chargoddard
原始信息汇总

数据集概述

数据集配置

配置 adequately_rated

  • 特征:
    • id: string
    • rating: struct
      • analysis: string
      • judge: string
      • score: int64
    • language: string
    • license: string
    • instruction: string
    • output: string
    • input: string
  • 分割:
    • train:
      • num_bytes: 502380874.99241877
      • num_examples: 231589
  • 下载大小: 233165301
  • 数据集大小: 502380874.99241877

配置 best_rated

  • 特征:
    • id: string
    • rating: struct
      • analysis: string
      • judge: string
      • score: int64
    • language: string
    • license: string
    • instruction: string
    • output: string
    • input: string
  • 分割:
    • train:
      • num_bytes: 7807230.779949458
      • num_examples: 3599
  • 下载大小: 3443289
  • 数据集大小: 7807230.779949458

配置 default

  • 特征:
    • id: string
    • rating: struct
      • analysis: string
      • judge: string
      • score: int64
    • language: string
    • license: string
    • instruction: string
    • output: string
    • input: string
  • 分割:
    • train:
      • num_bytes: 668703742
      • num_examples: 308261
  • 下载大小: 306198304
  • 数据集大小: 668703742

配置 ratings_only

  • 特征:
    • success: bool
    • score: int64
    • response: string
    • id: string
  • 分割:
    • train:
      • num_bytes: 124887856
      • num_examples: 308261
  • 下载大小: 58208563
  • 数据集大小: 124887856

配置 worst_rated

  • 特征:
    • id: string
    • rating: struct
      • analysis: string
      • judge: string
      • score: int64
    • language: string
    • license: string
    • instruction: string
    • output: string
    • input: string
  • 分割:
    • train:
      • num_bytes: 10393009.91018001
      • num_examples: 4791
  • 下载大小: 4676994
  • 数据集大小: 10393009.91018001

数据文件路径

  • adequately_rated: adequately_rated/train-*
  • best_rated: best_rated/train-*
  • default: data/train-*
  • ratings_only: ratings_only/train-*
  • worst_rated: worst_rated/train-*

语言

  • en

标签

  • code

大小分类

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作