suzzy123/sz-github-issues
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/suzzy123/sz-github-issues
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: url
dtype: string
- name: repository_url
dtype: string
- name: labels_url
dtype: string
- name: comments_url
dtype: string
- name: events_url
dtype: string
- name: html_url
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: number
dtype: int64
- name: title
dtype: string
- name: user
struct:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: labels
list:
- name: id
dtype: int64
- name: node_id
dtype: string
- name: url
dtype: string
- name: name
dtype: string
- name: color
dtype: string
- name: default
dtype: bool
- name: description
dtype: string
- name: state
dtype: string
- name: locked
dtype: bool
- name: assignees
list:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: milestone
dtype: 'null'
- name: comments
list: string
- name: created_at
dtype: timestamp[s]
- name: updated_at
dtype: timestamp[s]
- name: closed_at
dtype: timestamp[s]
- name: assignee
struct:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: author_association
dtype: string
- name: issue_field_values
list: 'null'
- name: type
dtype: 'null'
- name: active_lock_reason
dtype: 'null'
- name: draft
dtype: bool
- name: pull_request
struct:
- name: url
dtype: string
- name: html_url
dtype: string
- name: diff_url
dtype: string
- name: patch_url
dtype: string
- name: merged_at
dtype: timestamp[s]
- name: body
dtype: string
- name: closed_by
struct:
- name: login
dtype: string
- name: id
dtype: int64
- name: node_id
dtype: string
- name: avatar_url
dtype: string
- name: gravatar_id
dtype: string
- name: url
dtype: string
- name: html_url
dtype: string
- name: followers_url
dtype: string
- name: following_url
dtype: string
- name: gists_url
dtype: string
- name: starred_url
dtype: string
- name: subscriptions_url
dtype: string
- name: organizations_url
dtype: string
- name: repos_url
dtype: string
- name: events_url
dtype: string
- name: received_events_url
dtype: string
- name: type
dtype: string
- name: user_view_type
dtype: string
- name: site_admin
dtype: bool
- name: reactions
struct:
- name: url
dtype: string
- name: total_count
dtype: int64
- name: '+1'
dtype: int64
- name: '-1'
dtype: int64
- name: laugh
dtype: int64
- name: hooray
dtype: int64
- name: confused
dtype: int64
- name: heart
dtype: int64
- name: rocket
dtype: int64
- name: eyes
dtype: int64
- name: timeline_url
dtype: string
- name: performed_via_github_app
dtype: 'null'
- name: state_reason
dtype: string
- name: sub_issues_summary
struct:
- name: total
dtype: int64
- name: completed
dtype: int64
- name: percent_completed
dtype: int64
- name: issue_dependencies_summary
struct:
- name: blocked_by
dtype: int64
- name: total_blocked_by
dtype: int64
- name: blocking
dtype: int64
- name: total_blocking
dtype: int64
- name: pinned_comment
dtype: 'null'
- name: is_pull_request
dtype: bool
splits:
- name: train
num_bytes: 4476085
num_examples: 1000
download_size: 1269237
dataset_size: 4476085
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
suzzy123
搜集汇总
数据集介绍

构建方式
该数据集源自对GitHub平台上软件仓库中Issue(问题)信息的系统性抓取与整理。构建过程首先通过GitHub API接口,针对特定仓库(如涉及“sz”标识的项目)批量获取Issue的元数据及详细内容。每条记录均完整保留了Issue的原始结构,涵盖标识符、标题、状态、创建与更新时间、标签列表、用户与协作者关联信息、评论内容、关联的Pull Request细节、表情反应统计以及依赖关系等字段。最终将原始JSON数据转化为结构化的表格格式,形成包含1000条样本的训练集。
特点
数据集的一个显著特点在于其字段的全面性与纵深性,不仅包含Issue的基本属性,还囊括了用户信息(如登录名、类型、管理员状态)、标签的颜色与描述、里程碑、分配给多个协作者、评论的时间线和内容、状态变更的关联人员(如关闭者),以及反应统计(如点赞、爱心、火箭表情)。特别引入了子任务总结与依赖关系这两个高级字段,能够刻画Issue之间的阻塞与关联网络。另外,数据集中每条记录均包含一个明确的“is_pull_request”布尔字段,便于区分纯粹的Issue与合并请求,为多样化的软件工程分析提供了丰富的特征空间。
使用方法
该数据集可直接通过HuggingFace的datasets库进行加载与使用。使用时,用户只需指定数据集名称“sz-github-issues”,并选择划分“train”即可获得包含44.76万字节数据、共计1000条结构化记录的数据集。研究者可以针对Issue的标题与正文文本进行自然语言处理任务(如分类、情感分析),也可以利用状态、标签、反应数等数值字段进行统计分析或训练预测模型。数据集中丰富的时间戳字段(创建、更新、关闭)便于进行时序分析,而嵌套的用户和协作者数据结构则支持用户行为网络构建与协作模式研究。
背景与挑战
背景概述
sz-github-issues数据集诞生于开源协作与软件工程智能化的交汇节点,由开源社区与数据科学机构联合构建,聚焦于GitHub Issue数据的结构化采集与语义分析。该数据集系统收录了开源项目中的议题(Issue)全生命周期信息,涵盖标题、描述、标签、参与者互动及状态变更等多元维度,旨在解决软件开发中知识管理效率低下与协同决策不透明等核心问题。其影响力延伸至软件工程、自然语言处理与项目管理交叉领域,为自动缺陷分类、开发者行为建模及社区健康度评估提供了标准化数据基底。
当前挑战
该数据集面临的挑战主要源于开源生态的异质性与动态性。领域层面,Issue文本中混杂着技术术语、表情符号与代码片段,语义解析需应对非规范化语言与上下文依赖,传统NLP模型难以精准捕获开发者意图。构建过程中,API数据抓取受速率限制与元数据版本迭代影响,需平衡数据完整性与时序一致性;多仓库异构标签系统(如'bug','enhancement')的归一化处理,以及用户隐私字段(如邮件、IP)的脱敏,进一步增加了数据清洗的复杂性。此外,跨项目Issue的关联性(如依赖链)与长尾议题的标注稀疏性,对知识推理任务构成持续性挑战。
常用场景
经典使用场景
在软件工程与自然语言处理交叉领域,sz-github-issues数据集为分析开源项目协作模式提供了宝贵的语料资源。该数据集收录了来自GitHub仓库的千条议题记录,涵盖了标题、正文内容、用户信息、标签分类、评论互动、状态演进及反应度量等丰富字段。研究者可基于此开展议题分类与优先级预测任务,通过挖掘标题和正文的语义特征,结合标签与状态信息,构建自动化的议题分诊系统。此外,该数据集亦支持对开发者行为模式的研究,例如分析议题指派的协作网络、评论情感演化与解决时效之间的关联。其结构化的反应数据(如点赞、表情反馈)为量化社区参与度和情绪分析开辟了新的视角。
衍生相关工作
围绕sz-github-issues数据集的结构特征,学术界已衍生出多项经典研究。例如,有工作利用该数据集的标签层次与正文信息,训练出基于Transformer的议题分诊模型,在跨仓库迁移场景下仍保持较高标签预测准确率。另一项代表性研究构建了时间序列分析框架,从议题创建、评论到关闭的完整生命周期中提取演化模式,并结合图神经网络建模开发者之间的指派与协作关系,显著提升了对高优先级议题的早期识别能力。此外,该数据集的反应字段被用于探究社区反馈对解决速度的非线性影响,形成了关于集体智慧在开源协管中作用机制的量化理论。这些衍生工作不仅深化了对开源协作本质的理解,也催生了新一代代码仓库管理智能中间件的技术原型。
数据集最近研究
最新研究方向
该数据集汇聚了来自开源社区的海量GitHub议题记录,为软件工程、自然语言处理及协作行为分析等领域提供了丰富的数据土壤。当前前沿研究聚焦于利用该数据集中的议题状态、用户交互、标签演化与时间戳信息,结合大语言模型进行自动化议题分类、优先级预测与开发者联动分析,尤其关注开源生态中热点事件(如重大版本发布、安全漏洞曝光)对议题洪流的影响。通过对议题生成、关闭与评论链的时序建模,研究者能够揭示社区协作的动态模式,推动智能运维与开源治理策略的演进,其意义在于为理解大规模分布式协作的内在机理与优化工具链提供了实证基础。
以上内容由遇见数据集搜集并总结生成



