five

lucasmccabe-lmi/CodeAlpaca-20k

收藏
Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lucasmccabe-lmi/CodeAlpaca-20k
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 6576710.0 num_examples: 20022 download_size: 3450938 dataset_size: 6576710.0 --- # Dataset Card for "CodeAlpaca-20k" We provide a minor modification of the [CodeAlpaca-20k](https://huggingface.co/datasets/sahil2801/CodeAlpaca-20k) dataset. In particular, we add the phrase, "Write corresponding code in Python." if the intended language is not explicitly stated. ## Numbers: Prompts: 20022 Tokens: 1561716 using the EleutherAI/gpt-neox-20b tokenizer (counting instruction+input+output)
提供机构:
lucasmccabe-lmi
原始信息汇总

数据集概述

数据集名称

CodeAlpaca-20k

数据集特征

  • instruction: 数据类型为字符串。
  • input: 数据类型为字符串。
  • output: 数据类型为字符串。

数据集划分

  • train: 包含20022个样本,总大小为6576710.0字节。

数据集大小

  • 下载大小: 3450938字节。
  • 数据集总大小: 6576710.0字节。

数据集统计

  • 样本数量: 20022个。
  • 总令牌数: 1561716个,使用EleutherAI/gpt-neox-20b tokenizer计算(包括instruction+input+output)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作