susnato/GitHub1000Prs_query_context_pairs
收藏Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/susnato/GitHub1000Prs_query_context_pairs
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: repo_name
dtype: string
- name: pr_number
dtype: int64
- name: pr_title
dtype: string
- name: author
dtype: string
- name: git_commit_prev
dtype: string
- name: git_commit_curr
dtype: string
- name: date_created
dtype: string
- name: date_merged
dtype: string
- name: query
dtype: string
- name: context_file_path
dtype: string
- name: label
dtype: int64
- name: language
dtype: string
splits:
- name: train
num_bytes: 464652833
num_examples: 268853
download_size: 9235837
dataset_size: 464652833
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
susnato
原始信息汇总
数据集概述
特征信息
数据集包含以下特征:
- repo_name: 仓库名称,数据类型为字符串。
- pr_number: 拉取请求编号,数据类型为整数。
- pr_title: 拉取请求标题,数据类型为字符串。
- author: 作者,数据类型为字符串。
- git_commit_prev: 前一个Git提交,数据类型为字符串。
- git_commit_curr: 当前Git提交,数据类型为字符串。
- date_created: 创建日期,数据类型为字符串。
- date_merged: 合并日期,数据类型为字符串。
- query: 查询,数据类型为字符串。
- context_file_path: 上下文文件路径,数据类型为字符串。
- label: 标签,数据类型为整数。
- language: 语言,数据类型为字符串。
数据分割
数据集包含一个分割:
- train: 训练集,包含464,652,833字节,268,853个样本。
数据集大小
- 下载大小: 9,235,837字节
- 数据集大小: 464,652,833字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



