lucasmccabe-lmi/CodeAlpaca-20k
收藏Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lucasmccabe-lmi/CodeAlpaca-20k
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 6576710.0
num_examples: 20022
download_size: 3450938
dataset_size: 6576710.0
---
# Dataset Card for "CodeAlpaca-20k"
We provide a minor modification of the [CodeAlpaca-20k](https://huggingface.co/datasets/sahil2801/CodeAlpaca-20k) dataset. In particular, we add the phrase, "Write corresponding code in Python." if the intended language is not explicitly stated.
## Numbers:
Prompts: 20022
Tokens: 1561716 using the EleutherAI/gpt-neox-20b tokenizer (counting instruction+input+output)
提供机构:
lucasmccabe-lmi
原始信息汇总
数据集概述
数据集名称
CodeAlpaca-20k
数据集特征
- instruction: 数据类型为字符串。
- input: 数据类型为字符串。
- output: 数据类型为字符串。
数据集划分
- train: 包含20022个样本,总大小为6576710.0字节。
数据集大小
- 下载大小: 3450938字节。
- 数据集总大小: 6576710.0字节。
数据集统计
- 样本数量: 20022个。
- 总令牌数: 1561716个,使用EleutherAI/gpt-neox-20b tokenizer计算(包括instruction+input+output)。



