five

matlok/python-copilot-training-on-ai-research-repos

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matlok/python-copilot-training-on-ai-research-repos
下载链接
链接失效反馈
官方服务:
资源简介:
Python Copilot AI研究编码数据集是一个matlok python copilot数据集的子集,包含Python代码、导入的模块、基类、异常、返回和参数等。数据集大小为674MB,数据类型为文本,格式为使用Python AST提取的代码。该数据集用于文本生成任务,具有包括代码、文档字符串、文件路径等多个字段。

Python Copilot AI研究编码数据集是一个matlok python copilot数据集的子集,包含Python代码、导入的模块、基类、异常、返回和参数等。数据集大小为674MB,数据类型为文本,格式为使用Python AST提取的代码。该数据集用于文本生成任务,具有包括代码、文档字符串、文件路径等多个字段。
提供机构:
matlok
原始信息汇总

Python Copilot AI Research Coding Dataset

数据集概述

  • 名称: python copilot ai research coding dataset
  • 许可证: other
  • 标签: python-copilot, python-coding, fine-tuning, training, alpaca, text, coding
  • 任务类别: text-generation
  • 任务ID: parsing

数据集详情

  • 行数: 514430
  • 大小: 674 MB
  • 数据类型: text
  • 格式: Extracted code using python AST

数据集结构

  • 字段:
    • args: string
    • class_bases: string
    • class_docstr: string
    • class_docstr_tok: string
    • class_name: string
    • code: string
    • code_tok: string
    • docstr: string
    • docstr_tok: string
    • file_path: string
    • filename: string
    • imports: string
    • is_member: bool
    • label_desc: string
    • label_desc_len: int64
    • label_id: string
    • lend: int64
    • lstart: int64
    • name: string
    • num_all_bases: float64
    • num_bases: float64
    • num_classes: float64
    • num_functions: int64
    • num_imports: int64
    • num_methods: float64
    • raises: string
    • returns: string
    • total_objects: int64

使用方法

python from datasets import load_dataset

ds = load_dataset("matlok/python-copilot-training-on-ai-research-repos", data_dir="files")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作