susnato/csharp_PRs
收藏Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/susnato/csharp_PRs
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: repo_name
dtype: string
- name: pr_number
dtype: int64
- name: pr_title
dtype: string
- name: pr_description
dtype: string
- name: author
dtype: string
- name: date_created
dtype: timestamp[ns, tz=UTC]
- name: date_merged
dtype: timestamp[ns, tz=UTC]
- name: previous_commit
dtype: string
- name: pr_commit
dtype: string
- name: query
dtype: string
- name: filepath
dtype: string
- name: before_content
dtype: string
- name: after_content
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 117579951237
num_examples: 2074433
download_size: 58125931847
dataset_size: 117579951237
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 字段名称:repo_name,数据类型:字符串(string)
- 字段名称:拉取请求(Pull Request,PR)编号(pr_number),数据类型:64位整数(int64)
- 字段名称:PR标题(pr_title),数据类型:字符串(string)
- 字段名称:PR描述(pr_description),数据类型:字符串(string)
- 字段名称:作者(author),数据类型:字符串(string)
- 字段名称:创建时间(date_created),数据类型:带纳秒精度、时区为协调世界时(UTC)的时间戳(timestamp[ns, tz=UTC])
- 字段名称:合并时间(date_merged),数据类型:带纳秒精度、时区为协调世界时(UTC)的时间戳(timestamp[ns, tz=UTC])
- 字段名称:前序提交(previous_commit),数据类型:字符串(string)
- 字段名称:PR关联提交(pr_commit),数据类型:字符串(string)
- 字段名称:查询语句(query),数据类型:字符串(string)
- 字段名称:文件路径(filepath),数据类型:字符串(string)
- 字段名称:修改前内容(before_content),数据类型:字符串(string)
- 字段名称:修改后内容(after_content),数据类型:字符串(string)
- 字段名称:标签(label),数据类型:64位整数(int64)
数据集划分:
- 划分名称:train(训练集),字节大小:117579951237,样本数量:2074433
下载大小:58125931847
数据集存储大小:117579951237
配置项:
- 配置名称:default(默认配置)
数据文件:
- 对应划分:train(训练集),文件路径:data/train-*
提供机构:
susnato
原始信息汇总
数据集概述
数据集特征
- repo_name: 字符串类型
- pr_number: 64位整数类型
- pr_title: 字符串类型
- pr_description: 字符串类型
- author: 字符串类型
- date_created: 时间戳类型,UTC时区
- date_merged: 时间戳类型,UTC时区
- previous_commit: 字符串类型
- pr_commit: 字符串类型
- query: 字符串类型
- filepath: 字符串类型
- before_content: 字符串类型
- after_content: 字符串类型
- label: 64位整数类型
数据集分割
- train:
- 字节数: 117579951237
- 样本数: 2074433
数据集大小
- 下载大小: 58125931847 字节
- 数据集大小: 117579951237 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



