flytech/llama-python-codes-30k
收藏Hugging Face2023-11-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flytech/llama-python-codes-30k
下载链接
链接失效反馈官方服务:
资源简介:
Llama1/2 Python Codes 30k Tokenized数据集是一个丰富的资源,适用于多种自然语言处理任务,如问答、文本生成和文本到文本生成。它主要关注Python的指令任务,并针对Llama架构进行了标记化处理。数据集包含GPT-4生成的内容、自定义代码、行为方法以及超出Python范围的任务。数据集未经过清洗,输入条目数量较少。数据集的大小在10M到100M之间,包含27,331个示例,总标记数为13,993,984。
提供机构:
flytech
原始信息汇总
数据集概述
基本信息
- 作者: FlyTech
- 许可证: llama2
- 任务类别:
- 问答
- 文本生成
- 文本到文本生成
- 语言: 英语
- 标签:
- code
- python
- instruct
- llama
- flytech
- 名称: Llama1/2 Python Codes 30k Tokenized
- 大小类别: 10M<n<100M
详细描述
- 概述: 该数据集是一个丰富的资源,适用于各种自然语言处理任务,如问答、文本生成和文本到文本生成。它主要关注Python中的指令任务,并针对Llama架构进行了标记化。数据集包括GPT-4生成的内容、自定义代码、行为方法和超越Python的任务。
重要提示
- 警告: 该数据集(llama-python-codes-30k)未经过清理,具有非常低的唯一输入条目数量。对于完全清理、去标记化并过滤输入条目的版本,请参考flytech/python-codes-25k。
数据集指标
- 标记计数(通过LlamaTokenizer):
- 最大值: 508
- 平均值: 158.06
- 总计: 13,993,984
- 单词计数: 1,890,810
- 示例数量: 27,331
使用方法
python from datasets import load_dataset
dataset = load_dataset(flytech/llama-python-codes-30k, split=train)
可以以任何方式映射数据集,例如:
dataset = dataset.map(lambda example: {text: example[instruction] + + example[input] + + example[output]})[text]
许可证
该数据集使用llama2许可证。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含27,331个Python代码示例的资源,专门为Llama架构分词处理,主要用于自然语言处理任务如问答和文本生成。数据集混合了GPT-4生成内容、自定义代码及行为方法,并扩展到了非Python任务。
以上内容由遇见数据集搜集并总结生成



