matlok/python-copilot-training-from-many-repos-large
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matlok/python-copilot-training-from-many-repos-large
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Python Copilot Large Coding Dataset,是matlok python copilot数据集的一个子集。数据集包含Python代码,每行代码可能是一个类方法或全局函数,并包含导入的模块、基类(如果有)、异常、返回值和参数等信息。数据集的行数为2350782,大小为3.1 GB,数据类型为文本,格式为使用Python AST提取的代码。数据集的模式(schema)详细描述了每个字段的类型和含义。
该数据集名为Python Copilot Large Coding Dataset,是matlok python copilot数据集的一个子集。数据集包含Python代码,每行代码可能是一个类方法或全局函数,并包含导入的模块、基类(如果有)、异常、返回值和参数等信息。数据集的行数为2350782,大小为3.1 GB,数据类型为文本,格式为使用Python AST提取的代码。数据集的模式(schema)详细描述了每个字段的类型和含义。
提供机构:
matlok
原始信息汇总
Python Copilot Large Coding Dataset
概述
- 名称: python copilot large coding dataset
- 标签: python-copilot, python-coding, fine-tuning, training, alpaca, text, coding
- 任务类别: text-generation
- 任务ID: parsing
数据集详情
- 行数: 2350782
- 大小: 3.1 GB
- 数据类型: text
- 格式: Extracted code using python AST
数据结构
- 字段:
- args: string
- class_bases: string
- class_docstr: string
- class_docstr_tok: string
- class_name: string
- code: string
- code_tok: string
- docstr: string
- docstr_tok: string
- file_path: string
- filename: string
- imports: string
- is_member: bool
- label_desc: string
- label_desc_len: int64
- label_id: string
- lend: int64
- lstart: int64
- name: string
- num_all_bases: float64
- num_bases: float64
- num_classes: float64
- num_functions: int64
- num_imports: int64
- num_methods: float64
- raises: string
- returns: string
- total_objects: int64
使用方法
python from datasets import load_dataset
ds = load_dataset("matlok/python-copilot-training-from-many-repos-large", data_dir="files")



