DanCip/github-issues-top50-repos
收藏Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DanCip/github-issues-top50-repos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了GitHub问题的相关信息,主要特征包括问题的所有者仓库、问题正文、问题标题、问题评论的URL、问题评论数量、问题创建时间、问题更新时间、问题的HTML URL、GitHub问题ID、问题编号、消息内容、令牌数量等。数据集被分为训练集,包含206,814个样本,总大小为1,123,967,134字节。
This dataset contains information related to GitHub issues, with main features including the issue owner repository, issue body, issue title, issue comments URL, issue comments count, issue creation time, issue update time, issue HTML URL, GitHub issue ID, issue number, message content, token count, etc. The dataset is divided into a training set, containing 206,814 samples, with a total size of 1,123,967,134 bytes.
提供机构:
DanCip
原始信息汇总
数据集概述
数据集信息
特征
- issue_owner_repo: 字符串序列
- issue_body: 字符串
- issue_title: 字符串
- issue_comments_url: 字符串
- issue_comments_count: 64位整数
- issue_created_at: 时间戳(纳秒)
- issue_updated_at: 时间戳(纳秒,UTC时区)
- issue_html_url: 字符串
- issue_github_id: 64位整数
- issue_number: 64位整数
- msg: 字符串
- n_tokens: 64位整数
- index_level_0: 64位整数
数据分割
- train:
- 字节数: 1123967134
- 样本数: 206814
数据集大小
- 下载大小: 386524067 字节
- 数据集大小: 1123967134 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



