cluneau/github-issues
收藏Hugging Face2023-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cluneau/github-issues
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为HF Datasets GitHub Issues,主要用于文本分类任务,特别是多标签分类。数据集包含GitHub问题的相关信息,如URL、仓库URL、标签URL、评论URL、事件URL、HTML URL、ID、节点ID、编号、标题、用户信息、标签、状态、锁定状态、分配者、评论、创建时间、更新时间、关闭时间、作者关联、草稿、拉取请求、正文、反应、时间线URL、状态原因、是否为拉取请求等。数据集的大小在1K到10K之间,包含2242个训练样本。
提供机构:
cluneau
原始信息汇总
数据集概述
基本信息
- 名称: HF Datasets GitHub Issues
- 语言: 英语(monolingual)
- 大小: 1K<n<10K
- 任务类型: 文本分类
- 具体任务: 多标签分类
数据集结构
- 特征:
- 基本信息:
url,repository_url,labels_url,comments_url,events_url,html_url(均为字符串类型)id,number(均为64位整数类型)node_id(字符串类型)title(字符串类型)
- 用户信息:
user(结构体,包含登录名、ID、节点ID、头像URL等)
- 标签信息:
labels(列表,包含ID、节点ID、URL、名称、颜色等)
- 状态信息:
state(字符串类型)locked(布尔类型)
- 分配信息:
assignee(结构体,包含登录名、ID、节点ID、头像URL等)assignees(列表,包含登录名、ID、节点ID、头像URL等)
- 评论信息:
comments(字符串序列)
- 时间信息:
created_at,updated_at,closed_at(均为64位整数类型)
- 作者关联信息:
author_association(字符串类型)
- 草稿信息:
draft(浮点数类型)
- 拉取请求信息:
pull_request(结构体,包含URL、HTML URL、差异URL等)
- 反应信息:
reactions(结构体,包含URL、总数量、+1、-1等)
- 时间线URL:
timeline_url(字符串类型)
- 状态原因:
state_reason(字符串类型)
- 是否为拉取请求:
is_pull_request(布尔类型)
- 基本信息:
数据集分割
- 训练集:
- 字节数: 12013382
- 示例数: 2242
- 下载大小: 3940692
- 数据集大小: 12013382



