ytzi/racket-macro-instr-generated
收藏Hugging Face2024-07-08 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/ytzi/racket-macro-instr-generated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,如blob_id、branch_name、committer_date等,涵盖了代码库的元数据、文件内容、许可证信息、时间戳等。数据集主要用于存储与代码库相关的信息,可能用于代码分析、许可证检测等任务。数据集包含一个训练集,大小为223694766字节,包含9750个样本。
The dataset includes multiple fields related to code repositories, such as blob_id, branch_name, committer_date, etc., covering aspects like code content, licenses, languages, timestamps, and more. The dataset is divided into a training set (train) with 9750 samples and a total size of 223694766 bytes. The dataset configuration is named default, with data file paths as data/train-*.
提供机构:
ytzi
原始信息汇总
数据集概述
数据集信息
特征
- blob_id: 字符串
- branch_name: 字符串
- committer_date: 时间戳(纳秒)
- content: 字符串
- content_id: 字符串
- detected_licenses: 字符串序列
- directory_id: 字符串
- extension: 字符串
- filename: 字符串
- fork_events_count: 64位整数
- gha_created_at: 时间戳(纳秒)
- gha_event_created_at: 时间戳(纳秒)
- gha_language: 字符串
- gha_license_id: 字符串
- github_id: 64位浮点数
- has_macro_def: 布尔值
- inspirations: 字符串
- is_generated: 布尔值
- is_vendor: 布尔值
- language: 字符串
- length_bytes: 64位整数
- license_type: 字符串
- path: 字符串
- repo_name: 字符串
- revision_date: 时间戳(纳秒)
- revision_id: 字符串
- snapshot_id: 字符串
- src_encoding: 字符串
- star_events_count: 64位整数
- training_examples: 字符串
- training_examples_prompt_template: 字符串
- visit_date: 时间戳(纳秒)
- training_exmaples_prompt: 列表
- content: 字符串
- role: 字符串
- index_level_0: 64位整数
数据分割
- train:
- 字节数: 223694766
- 样本数: 9750
数据集大小
- 下载大小: 35238407 字节
- 数据集大小: 223694766 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



