five

flytech/llama-python-codes-30k

收藏
Hugging Face2023-11-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flytech/llama-python-codes-30k
下载链接
链接失效反馈
官方服务:
资源简介:
Llama1/2 Python Codes 30k Tokenized数据集是一个丰富的资源,适用于多种自然语言处理任务,如问答、文本生成和文本到文本生成。它主要关注Python的指令任务,并针对Llama架构进行了标记化处理。数据集包含GPT-4生成的内容、自定义代码、行为方法以及超出Python范围的任务。数据集未经过清洗,输入条目数量较少。数据集的大小在10M到100M之间,包含27,331个示例,总标记数为13,993,984。
提供机构:
flytech
原始信息汇总

数据集概述

基本信息

  • 作者: FlyTech
  • 许可证: llama2
  • 任务类别:
    • 问答
    • 文本生成
    • 文本到文本生成
  • 语言: 英语
  • 标签:
    • code
    • python
    • instruct
    • llama
    • flytech
  • 名称: Llama1/2 Python Codes 30k Tokenized
  • 大小类别: 10M<n<100M

详细描述

  • 概述: 该数据集是一个丰富的资源,适用于各种自然语言处理任务,如问答、文本生成和文本到文本生成。它主要关注Python中的指令任务,并针对Llama架构进行了标记化。数据集包括GPT-4生成的内容、自定义代码、行为方法和超越Python的任务。

重要提示

  • 警告: 该数据集(llama-python-codes-30k)未经过清理,具有非常低的唯一输入条目数量。对于完全清理、去标记化并过滤输入条目的版本,请参考flytech/python-codes-25k

数据集指标

  • 标记计数(通过LlamaTokenizer):
    • 最大值: 508
    • 平均值: 158.06
    • 总计: 13,993,984
  • 单词计数: 1,890,810
  • 示例数量: 27,331

使用方法

python from datasets import load_dataset

dataset = load_dataset(flytech/llama-python-codes-30k, split=train)

可以以任何方式映射数据集,例如:

dataset = dataset.map(lambda example: {text: example[instruction] + + example[input] + + example[output]})[text]

许可证

该数据集使用llama2许可证。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个包含27,331个Python代码示例的资源,专门为Llama架构分词处理,主要用于自然语言处理任务如问答和文本生成。数据集混合了GPT-4生成内容、自定义代码及行为方法,并扩展到了非Python任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作