five

matlok/python-copilot-training-from-many-repos-large

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matlok/python-copilot-training-from-many-repos-large
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Python Copilot Large Coding Dataset,是matlok python copilot数据集的一个子集。数据集包含Python代码,每行代码可能是一个类方法或全局函数,并包含导入的模块、基类(如果有)、异常、返回值和参数等信息。数据集的行数为2350782,大小为3.1 GB,数据类型为文本,格式为使用Python AST提取的代码。数据集的模式(schema)详细描述了每个字段的类型和含义。

该数据集名为Python Copilot Large Coding Dataset,是matlok python copilot数据集的一个子集。数据集包含Python代码,每行代码可能是一个类方法或全局函数,并包含导入的模块、基类(如果有)、异常、返回值和参数等信息。数据集的行数为2350782,大小为3.1 GB,数据类型为文本,格式为使用Python AST提取的代码。数据集的模式(schema)详细描述了每个字段的类型和含义。
提供机构:
matlok
原始信息汇总

Python Copilot Large Coding Dataset

概述

  • 名称: python copilot large coding dataset
  • 标签: python-copilot, python-coding, fine-tuning, training, alpaca, text, coding
  • 任务类别: text-generation
  • 任务ID: parsing

数据集详情

  • 行数: 2350782
  • 大小: 3.1 GB
  • 数据类型: text
  • 格式: Extracted code using python AST

数据结构

  • 字段:
    • args: string
    • class_bases: string
    • class_docstr: string
    • class_docstr_tok: string
    • class_name: string
    • code: string
    • code_tok: string
    • docstr: string
    • docstr_tok: string
    • file_path: string
    • filename: string
    • imports: string
    • is_member: bool
    • label_desc: string
    • label_desc_len: int64
    • label_id: string
    • lend: int64
    • lstart: int64
    • name: string
    • num_all_bases: float64
    • num_bases: float64
    • num_classes: float64
    • num_functions: int64
    • num_imports: int64
    • num_methods: float64
    • raises: string
    • returns: string
    • total_objects: int64

使用方法

python from datasets import load_dataset

ds = load_dataset("matlok/python-copilot-training-from-many-repos-large", data_dir="files")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作