ulises-c/github-issues
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ulises-c/github-issues
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: url
dtype: large_string
- name: repository_url
dtype: large_string
- name: labels_url
dtype: large_string
- name: comments_url
dtype: large_string
- name: events_url
dtype: large_string
- name: html_url
dtype: large_string
- name: id
dtype: int64
- name: node_id
dtype: large_string
- name: number
dtype: int64
- name: title
dtype: large_string
- name: user
struct:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: labels
list:
- name: id
dtype: int64
- name: node_id
dtype: string
- name: url
dtype: string
- name: name
dtype: string
- name: color
dtype: string
- name: default
dtype: bool
- name: description
dtype: string
- name: state
dtype: large_string
- name: locked
dtype: bool
- name: assignees
list:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: milestone
struct:
- name: url
dtype: string
- name: html_url
dtype: string
- name: labels_url
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: number
dtype: int64
- name: title
dtype: string
- name: description
dtype: string
- name: creator
struct:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: open_issues
dtype: int64
- name: closed_issues
dtype: int64
- name: state
dtype: string
- name: created_at
dtype: string
- name: updated_at
dtype: string
- name: due_on
dtype: string
- name: closed_at
dtype: string
- name: comments
list: string
- name: created_at
dtype: large_string
- name: updated_at
dtype: large_string
- name: closed_at
dtype: large_string
- name: assignee
struct:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: author_association
dtype: large_string
- name: issue_field_values
list: 'null'
- name: type
dtype: float64
- name: active_lock_reason
dtype: float64
- name: sub_issues_summary
struct:
- name: total
dtype: int64
- name: completed
dtype: int64
- name: percent_completed
dtype: int64
- name: issue_dependencies_summary
struct:
- name: blocked_by
dtype: int64
- name: total_blocked_by
dtype: int64
- name: blocking
dtype: int64
- name: total_blocking
dtype: int64
- name: body
dtype: large_string
- name: closed_by
struct:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: reactions
struct:
- name: url
dtype: string
- name: total_count
dtype: int64
- name: '+1'
dtype: int64
- name: '-1'
dtype: int64
- name: laugh
dtype: int64
- name: hooray
dtype: int64
- name: confused
dtype: int64
- name: heart
dtype: int64
- name: rocket
dtype: int64
- name: eyes
dtype: int64
- name: timeline_url
dtype: large_string
- name: performed_via_github_app
dtype: float64
- name: state_reason
dtype: large_string
- name: pinned_comment
dtype: float64
- name: draft
dtype: float64
- name: pull_request
struct:
- name: url
dtype: string
- name: html_url
dtype: string
- name: diff_url
dtype: string
- name: patch_url
dtype: string
- name: merged_at
dtype: string
- name: is_pull_request
dtype: bool
splits:
- name: train
num_bytes: 50909834
num_examples: 8068
download_size: 38999922
dataset_size: 50909834
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
ulises-c
搜集汇总
数据集介绍

构建方式
在开源协作与软件生态蓬勃发展的时代背景下,GitHub Issues已成为开发者追踪缺陷、讨论功能请求及管理项目工作流的核心枢纽。该数据集的构建依托于GitHub官方API,系统性地采集了来自多个活跃开源仓库的议题(Issue)与拉取请求(Pull Request)记录。原始数据经过结构化处理,保留了从URL、仓库地址到用户信息、标签分类、里程碑状态、评论内容及反应(Reactions)等在内的完整元数据。最终整合为包含8068个样本的训练集,所有字段均经过类型规范化,以HuggingFace Datasets标准格式存储,便于后续加载与分析。
特点
该数据集呈现出显著的领域特征。一方面,它完整捕获了议题全生命周期信息,涵盖创建、关闭、锁定、指派等状态变更,以及子议题依赖与阻塞关系,为模拟复杂项目管理场景提供了真实数据。另一方面,数据包含多维用户行为记录,如用户身份、标签颜色、评论列表、反应计数(如“+1”“heart”等),兼顾内容语义与社交互动维度。此外,拉取请求字段的嵌入使得议题与代码变更得以关联,拓展了数据集在软件工程分析中的适用边界。
使用方法
在应用层面,该数据集适用于多种研究与实践场景。研究者可直接通过HuggingFace的`load_dataset`接口以默认配置加载训练集,其数据格式与Transformers、Datasets等库无缝兼容。典型用法包括:基于`title`与`body`构建文本分类模型(如议题类型识别),利用`state`与`milestone`训练项目进度预测系统,或结合`reactions`与`comments`开展社区情绪分析。用户亦可按需提取特定仓库数据,或通过`labels`与`assignees`字段构建协同过滤推荐模型。
背景与挑战
背景概述
在开源生态蓬勃发展的浪潮中,GitHub作为全球最大的代码托管平台,其Issue(议题)系统是协作开发的核心枢纽,承载着缺陷报告、功能请求、任务跟踪等关键语义信息。github-issues数据集应运而生,由HuggingFace团队整理并发布于2020年前后,旨在系统性地捕获GitHub仓库中议题的结构化元数据与自然语言内容。该数据集深度聚焦于软件工程与自然语言处理的交叉领域,通过标准化字段(如标题、正文、标签、状态、用户贡献者信息及情感反应)为研究社区提供了探究开发者沟通模式、自动化议题分类、情感分析及协作效率的宝贵资源。其影响力辐射至软件工程数据挖掘、智能运维与开源治理等多个方向,成为连接传统Issue追踪与数据驱动模型的重要桥梁。
当前挑战
该数据集所解决的领域核心挑战在于,GitHub议题的非结构化文本、多标签体系、嘈杂的评论内容以及跨仓库的个性化流程,严重阻碍了自动化流程与知识复用模型的泛化能力。构建过程中,从数百万实时议题中甄别并提取高质量示例面临严峻考验:需处理API速率限制、数据一致性校验(如状态与时间线的逻辑矛盾),以及将异构的用户结构(如Assignee与Closed_by的嵌套关系)映射为扁平化的机器学习输入格式。此外,Pull Request与Issue的交集、大规模标签体系的语义歧义、以及多语言、多情感基调的正文内容,进一步加大了模型在上下文理解与意图归纳上的难度。
常用场景
经典使用场景
在软件工程与自然语言处理交汇的广阔疆域,GitHub Issues数据集如同一座蕴藏丰饶的矿山,其最经典的用途便是作为软件缺陷报告与功能请求的文本挖掘基石。研究者常利用其丰富的标题、正文与评论内容,结合状态标签与用户信息,开展自动化的问题分类、严重性评估与优先级排序等任务,从而为开源社区的协作效率提升提供精准的算法支撑。
解决学术问题
该数据集有力地回应了软件开发自动化中的多个关键学术挑战。它使得基于深度学习的缺陷定位与分诊成为可能,解决了传统上依赖人工经验进行问题路由的低效难题。通过对Issue文本与结构化元数据的联合建模,研究者得以探索软件仓库中知识流动的规律,极大地推动了软件仓库挖掘领域的发展,为构建智慧型开发辅助系统奠定了坚实的实证基础。
衍生相关工作
由此数据集衍生出一系列影响深远的经典工作。其中,关于Issue标题与正文的自动摘要生成模型,为快速理解问题核心提供了便捷途径。同时,针对Issue评论的情感分析研究,能够量化社区参与者的情绪波动,为开源项目管理提供了社会技术层面的洞察。此外,将Issue与代码提交历史关联的尝试,催生了缺陷溯源与修复模式发现的交叉研究,进一步深化了对软件开发行为的理解。
以上内容由遇见数据集搜集并总结生成



