five

cluneau/github-issues

收藏
Hugging Face2023-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cluneau/github-issues
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为HF Datasets GitHub Issues,主要用于文本分类任务,特别是多标签分类。数据集包含GitHub问题的相关信息,如URL、仓库URL、标签URL、评论URL、事件URL、HTML URL、ID、节点ID、编号、标题、用户信息、标签、状态、锁定状态、分配者、评论、创建时间、更新时间、关闭时间、作者关联、草稿、拉取请求、正文、反应、时间线URL、状态原因、是否为拉取请求等。数据集的大小在1K到10K之间,包含2242个训练样本。
提供机构:
cluneau
原始信息汇总

数据集概述

基本信息

  • 名称: HF Datasets GitHub Issues
  • 语言: 英语(monolingual)
  • 大小: 1K<n<10K
  • 任务类型: 文本分类
  • 具体任务: 多标签分类

数据集结构

  • 特征:
    • 基本信息:
      • url, repository_url, labels_url, comments_url, events_url, html_url (均为字符串类型)
      • id, number (均为64位整数类型)
      • node_id (字符串类型)
      • title (字符串类型)
    • 用户信息:
      • user (结构体,包含登录名、ID、节点ID、头像URL等)
    • 标签信息:
      • labels (列表,包含ID、节点ID、URL、名称、颜色等)
    • 状态信息:
      • state (字符串类型)
      • locked (布尔类型)
    • 分配信息:
      • assignee (结构体,包含登录名、ID、节点ID、头像URL等)
      • assignees (列表,包含登录名、ID、节点ID、头像URL等)
    • 评论信息:
      • comments (字符串序列)
    • 时间信息:
      • created_at, updated_at, closed_at (均为64位整数类型)
    • 作者关联信息:
      • author_association (字符串类型)
    • 草稿信息:
      • draft (浮点数类型)
    • 拉取请求信息:
      • pull_request (结构体,包含URL、HTML URL、差异URL等)
    • 反应信息:
      • reactions (结构体,包含URL、总数量、+1、-1等)
    • 时间线URL:
      • timeline_url (字符串类型)
    • 状态原因:
      • state_reason (字符串类型)
    • 是否为拉取请求:
      • is_pull_request (布尔类型)

数据集分割

  • 训练集:
    • 字节数: 12013382
    • 示例数: 2242
    • 下载大小: 3940692
    • 数据集大小: 12013382
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作