five

matlok/python-text-copilot-training-instruct-ai-research-2024-02-10

收藏
Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matlok/python-text-copilot-training-instruct-ai-research-2024-02-10
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于构建理解如何使用开源GitHub项目的多模态编码模型,特别是针对Qwen AI项目。数据集包含Python代码、导入的模块、基类、异常、返回值和参数等信息。数据集的格式为使用Alpaca和YAML响应的代码使用说明。数据集包含1070671行数据,大小为1.8 GB,涉及1274个Python仓库。

该数据集用于构建理解如何使用开源GitHub项目的多模态编码模型,特别是针对Qwen AI项目。数据集包含Python代码、导入的模块、基类、异常、返回值和参数等信息。数据集的格式为使用Alpaca和YAML响应的代码使用说明。数据集包含1070671行数据,大小为1.8 GB,涉及1274个Python仓库。
提供机构:
matlok
原始信息汇总

数据集概述

基本信息

  • 名称: 2024-02-10 - python copilot instructions on how to code using alpaca and yaml
  • 配置名称: qwen_agent
  • 大小类别: 1M<n<10M
  • 标签: python-copilot, python-coding, python-architecture, knowledge-graphs, multimodal, text-image-audio, fine-tuning, training, question-answering, image-knowledge-graph, alpaca, mp3, png, text, instruct, coding, task, prompt, response, yaml
  • 任务类别: text-generation, question-answering
  • 任务ID: parsing

数据集详情

  • 行数: 1070671
  • 大小: 1.8 GB
  • 数据类型: instruct
  • 格式: Introduction on code usage using alpaca and yaml response
  • Python仓库数量: 1274

数据文件

  • 配置名称: qwen_agent
  • 分割: view_schema
  • 路径: schema/train-0022-qwen-agent-qwen_agent.parquet

使用方法

python from datasets import load_dataset

ds_name = "matlok/python-text-copilot-training-instruct-ai-research-2024-02-10" dc = "qwen_agent" ds = load_dataset(ds_name, dc, verification_mode="no_checks") print(f"ds={ds_name} dataset_config={dc} has {len(ds[view_schema][file_path])} unique python modules")

数据集结构

  • 列描述:
    • active: bool
    • args: string
    • args_len: float64
    • audio_file: string
    • audio_path: string
    • class_bases: string
    • class_name: string
    • code: string
    • code_len: float64
    • desc: string
    • desc_docstr: string
    • desc_docstr_len: float64
    • desc_len: int64
    • docstr: string
    • docstr_len: int64
    • file_path: string
    • file_type: string
    • function_names: string
    • gen_bytes: int64
    • gen_data_type: string
    • gen_mode: string
    • gen_size: int64
    • gen_valid: bool
    • height: int64
    • image_file: string
    • image_path: string
    • method_names: string
    • name: string
    • num_all_bases: int64
    • num_bases: int64
    • num_classes: int64
    • num_functions: float64
    • num_imports: int64
    • num_methods: float64
    • prompts: string
    • raises: string
    • raises_len: float64
    • recsize: int64
    • repo: string
    • returns: string
    • returns_len: float64
    • size: int64
    • src_object: string
    • total_objects: int64
    • usage: string
    • usages: string
    • width: int64
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作