five

matlok/python-text-copilot-training-instruct-ai-research-2024-01-27

收藏
Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matlok/python-text-copilot-training-instruct-ai-research-2024-01-27
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是2024年1月27日更新的matlok Python Copilot数据集。每行包含Python代码,可能是类方法或全局函数,以及导入的模块、基类(如果有)、异常(按代码顺序排列)、返回值(按代码顺序排列)、参数(按代码顺序排列)等信息。数据集大小为1.9 GB,包含1056925行数据,数据类型为instruct,格式为使用alpaca和yaml响应的代码使用介绍。

该数据集是2024年1月27日更新的matlok Python Copilot数据集。每行包含Python代码,可能是类方法或全局函数,以及导入的模块、基类(如果有)、异常(按代码顺序排列)、返回值(按代码顺序排列)、参数(按代码顺序排列)等信息。数据集大小为1.9 GB,包含1056925行数据,数据类型为instruct,格式为使用alpaca和yaml响应的代码使用介绍。
提供机构:
matlok
原始信息汇总

数据集概述

基本信息

  • 数据集名称: python copilot instructions on how to code using alpaca and yaml
  • 许可证: other
  • 数据类型: instruct
  • 格式: Introduction on code usage using alpaca and yaml response
  • 大小: 1.9 GB
  • 行数: 1056925

配置信息

  • 配置名称:
    • v1_train_on_ai_latest
    • v2_test_with_text_generation_inference
    • v3_test_with_transformers_src
    • view_schema

数据文件

  • v1_train_on_ai_latest:
    • 分割: v1_train_on_ai_latest
    • 路径: train/train-2024-01-27.parquet
  • v2_test_with_text_generation_inference:
    • 分割: v2_test_with_text_generation_inference
    • 路径: files/lok-python-copilot-code.large.instruct-v15_00000903.parquet
  • v3_test_with_transformers_src:
    • 分割: v3_test_with_transformers_src
    • 路径: files/lok-python-copilot-code.large.instruct-v15_00001224.parquet
  • view_schema:
    • 分割: view_schema
    • 路径: files/lok-python-copilot-code.large.instruct-v15_00001676.parquet

任务类别

  • 支持的任务类别:
    • text-generation
    • question-answering

任务ID

  • 支持的任务ID:
    • parsing

数据集结构

  • 列信息:
    • active: bool
    • args: string
    • args_len: float64
    • audio_file: string
    • audio_path: string
    • class_bases: string
    • class_name: string
    • code: string
    • code_len: float64
    • desc: string
    • desc_docstr: string
    • desc_docstr_len: float64
    • desc_len: int64
    • docstr: string
    • docstr_len: int64
    • file_path: string
    • file_type: string
    • function_names: string
    • gen_bytes: int64
    • gen_data_type: string
    • gen_mode: string
    • gen_size: int64
    • gen_valid: bool
    • height: int64
    • image_file: string
    • image_path: string
    • method_names: string
    • name: string
    • num_all_bases: int64
    • num_bases: int64
    • num_classes: int64
    • num_functions: float64
    • num_imports: int64
    • num_methods: float64
    • prompts: string
    • raises: string
    • raises_len: float64
    • recsize: int64
    • repo: string
    • returns: string
    • returns_len: float64
    • size: int64
    • src_object: string
    • total_objects: int64
    • usage: string
    • usages: string
    • width: int64

使用示例

python from datasets import load_dataset

ds = load_dataset("matlok/python-text-copilot-training-instruct-2024-01-27", data_dir="files")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作