matlok/python-copilot-training-on-ai-research-repos
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matlok/python-copilot-training-on-ai-research-repos
下载链接
链接失效反馈官方服务:
资源简介:
Python Copilot AI研究编码数据集是一个matlok python copilot数据集的子集,包含Python代码、导入的模块、基类、异常、返回和参数等。数据集大小为674MB,数据类型为文本,格式为使用Python AST提取的代码。该数据集用于文本生成任务,具有包括代码、文档字符串、文件路径等多个字段。
Python Copilot AI研究编码数据集是一个matlok python copilot数据集的子集,包含Python代码、导入的模块、基类、异常、返回和参数等。数据集大小为674MB,数据类型为文本,格式为使用Python AST提取的代码。该数据集用于文本生成任务,具有包括代码、文档字符串、文件路径等多个字段。
提供机构:
matlok
原始信息汇总
Python Copilot AI Research Coding Dataset
数据集概述
- 名称: python copilot ai research coding dataset
- 许可证: other
- 标签: python-copilot, python-coding, fine-tuning, training, alpaca, text, coding
- 任务类别: text-generation
- 任务ID: parsing
数据集详情
- 行数: 514430
- 大小: 674 MB
- 数据类型: text
- 格式: Extracted code using python AST
数据集结构
- 字段:
- args: string
- class_bases: string
- class_docstr: string
- class_docstr_tok: string
- class_name: string
- code: string
- code_tok: string
- docstr: string
- docstr_tok: string
- file_path: string
- filename: string
- imports: string
- is_member: bool
- label_desc: string
- label_desc_len: int64
- label_id: string
- lend: int64
- lstart: int64
- name: string
- num_all_bases: float64
- num_bases: float64
- num_classes: float64
- num_functions: int64
- num_imports: int64
- num_methods: float64
- raises: string
- returns: string
- total_objects: int64
使用方法
python from datasets import load_dataset
ds = load_dataset("matlok/python-copilot-training-on-ai-research-repos", data_dir="files")



