five

ulises-c/github-issues

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ulises-c/github-issues
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: url dtype: large_string - name: repository_url dtype: large_string - name: labels_url dtype: large_string - name: comments_url dtype: large_string - name: events_url dtype: large_string - name: html_url dtype: large_string - name: id dtype: int64 - name: node_id dtype: large_string - name: number dtype: int64 - name: title dtype: large_string - name: user struct: - name: login dtype: string - name: id dtype: int64 - name: node_id dtype: string - name: avatar_url dtype: string - name: gravatar_id dtype: string - name: url dtype: string - name: html_url dtype: string - name: followers_url dtype: string - name: following_url dtype: string - name: gists_url dtype: string - name: starred_url dtype: string - name: subscriptions_url dtype: string - name: organizations_url dtype: string - name: repos_url dtype: string - name: events_url dtype: string - name: received_events_url dtype: string - name: type dtype: string - name: user_view_type dtype: string - name: site_admin dtype: bool - name: labels list: - name: id dtype: int64 - name: node_id dtype: string - name: url dtype: string - name: name dtype: string - name: color dtype: string - name: default dtype: bool - name: description dtype: string - name: state dtype: large_string - name: locked dtype: bool - name: assignees list: - name: login dtype: string - name: id dtype: int64 - name: node_id dtype: string - name: avatar_url dtype: string - name: gravatar_id dtype: string - name: url dtype: string - name: html_url dtype: string - name: followers_url dtype: string - name: following_url dtype: string - name: gists_url dtype: string - name: starred_url dtype: string - name: subscriptions_url dtype: string - name: organizations_url dtype: string - name: repos_url dtype: string - name: events_url dtype: string - name: received_events_url dtype: string - name: type dtype: string - name: user_view_type dtype: string - name: site_admin dtype: bool - name: milestone struct: - name: url dtype: string - name: html_url dtype: string - name: labels_url dtype: string - name: id dtype: int64 - name: node_id dtype: string - name: number dtype: int64 - name: title dtype: string - name: description dtype: string - name: creator struct: - name: login dtype: string - name: id dtype: int64 - name: node_id dtype: string - name: avatar_url dtype: string - name: gravatar_id dtype: string - name: url dtype: string - name: html_url dtype: string - name: followers_url dtype: string - name: following_url dtype: string - name: gists_url dtype: string - name: starred_url dtype: string - name: subscriptions_url dtype: string - name: organizations_url dtype: string - name: repos_url dtype: string - name: events_url dtype: string - name: received_events_url dtype: string - name: type dtype: string - name: user_view_type dtype: string - name: site_admin dtype: bool - name: open_issues dtype: int64 - name: closed_issues dtype: int64 - name: state dtype: string - name: created_at dtype: string - name: updated_at dtype: string - name: due_on dtype: string - name: closed_at dtype: string - name: comments list: string - name: created_at dtype: large_string - name: updated_at dtype: large_string - name: closed_at dtype: large_string - name: assignee struct: - name: login dtype: string - name: id dtype: int64 - name: node_id dtype: string - name: avatar_url dtype: string - name: gravatar_id dtype: string - name: url dtype: string - name: html_url dtype: string - name: followers_url dtype: string - name: following_url dtype: string - name: gists_url dtype: string - name: starred_url dtype: string - name: subscriptions_url dtype: string - name: organizations_url dtype: string - name: repos_url dtype: string - name: events_url dtype: string - name: received_events_url dtype: string - name: type dtype: string - name: user_view_type dtype: string - name: site_admin dtype: bool - name: author_association dtype: large_string - name: issue_field_values list: 'null' - name: type dtype: float64 - name: active_lock_reason dtype: float64 - name: sub_issues_summary struct: - name: total dtype: int64 - name: completed dtype: int64 - name: percent_completed dtype: int64 - name: issue_dependencies_summary struct: - name: blocked_by dtype: int64 - name: total_blocked_by dtype: int64 - name: blocking dtype: int64 - name: total_blocking dtype: int64 - name: body dtype: large_string - name: closed_by struct: - name: login dtype: string - name: id dtype: int64 - name: node_id dtype: string - name: avatar_url dtype: string - name: gravatar_id dtype: string - name: url dtype: string - name: html_url dtype: string - name: followers_url dtype: string - name: following_url dtype: string - name: gists_url dtype: string - name: starred_url dtype: string - name: subscriptions_url dtype: string - name: organizations_url dtype: string - name: repos_url dtype: string - name: events_url dtype: string - name: received_events_url dtype: string - name: type dtype: string - name: user_view_type dtype: string - name: site_admin dtype: bool - name: reactions struct: - name: url dtype: string - name: total_count dtype: int64 - name: '+1' dtype: int64 - name: '-1' dtype: int64 - name: laugh dtype: int64 - name: hooray dtype: int64 - name: confused dtype: int64 - name: heart dtype: int64 - name: rocket dtype: int64 - name: eyes dtype: int64 - name: timeline_url dtype: large_string - name: performed_via_github_app dtype: float64 - name: state_reason dtype: large_string - name: pinned_comment dtype: float64 - name: draft dtype: float64 - name: pull_request struct: - name: url dtype: string - name: html_url dtype: string - name: diff_url dtype: string - name: patch_url dtype: string - name: merged_at dtype: string - name: is_pull_request dtype: bool splits: - name: train num_bytes: 50909834 num_examples: 8068 download_size: 38999922 dataset_size: 50909834 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
ulises-c
搜集汇总
数据集介绍
main_image_url
构建方式
在开源协作与软件生态蓬勃发展的时代背景下,GitHub Issues已成为开发者追踪缺陷、讨论功能请求及管理项目工作流的核心枢纽。该数据集的构建依托于GitHub官方API,系统性地采集了来自多个活跃开源仓库的议题(Issue)与拉取请求(Pull Request)记录。原始数据经过结构化处理,保留了从URL、仓库地址到用户信息、标签分类、里程碑状态、评论内容及反应(Reactions)等在内的完整元数据。最终整合为包含8068个样本的训练集,所有字段均经过类型规范化,以HuggingFace Datasets标准格式存储,便于后续加载与分析。
特点
该数据集呈现出显著的领域特征。一方面,它完整捕获了议题全生命周期信息,涵盖创建、关闭、锁定、指派等状态变更,以及子议题依赖与阻塞关系,为模拟复杂项目管理场景提供了真实数据。另一方面,数据包含多维用户行为记录,如用户身份、标签颜色、评论列表、反应计数(如“+1”“heart”等),兼顾内容语义与社交互动维度。此外,拉取请求字段的嵌入使得议题与代码变更得以关联,拓展了数据集在软件工程分析中的适用边界。
使用方法
在应用层面,该数据集适用于多种研究与实践场景。研究者可直接通过HuggingFace的`load_dataset`接口以默认配置加载训练集,其数据格式与Transformers、Datasets等库无缝兼容。典型用法包括:基于`title`与`body`构建文本分类模型(如议题类型识别),利用`state`与`milestone`训练项目进度预测系统,或结合`reactions`与`comments`开展社区情绪分析。用户亦可按需提取特定仓库数据,或通过`labels`与`assignees`字段构建协同过滤推荐模型。
背景与挑战
背景概述
在开源生态蓬勃发展的浪潮中,GitHub作为全球最大的代码托管平台,其Issue(议题)系统是协作开发的核心枢纽,承载着缺陷报告、功能请求、任务跟踪等关键语义信息。github-issues数据集应运而生,由HuggingFace团队整理并发布于2020年前后,旨在系统性地捕获GitHub仓库中议题的结构化元数据与自然语言内容。该数据集深度聚焦于软件工程与自然语言处理的交叉领域,通过标准化字段(如标题、正文、标签、状态、用户贡献者信息及情感反应)为研究社区提供了探究开发者沟通模式、自动化议题分类、情感分析及协作效率的宝贵资源。其影响力辐射至软件工程数据挖掘、智能运维与开源治理等多个方向,成为连接传统Issue追踪与数据驱动模型的重要桥梁。
当前挑战
该数据集所解决的领域核心挑战在于,GitHub议题的非结构化文本、多标签体系、嘈杂的评论内容以及跨仓库的个性化流程,严重阻碍了自动化流程与知识复用模型的泛化能力。构建过程中,从数百万实时议题中甄别并提取高质量示例面临严峻考验:需处理API速率限制、数据一致性校验(如状态与时间线的逻辑矛盾),以及将异构的用户结构(如Assignee与Closed_by的嵌套关系)映射为扁平化的机器学习输入格式。此外,Pull Request与Issue的交集、大规模标签体系的语义歧义、以及多语言、多情感基调的正文内容,进一步加大了模型在上下文理解与意图归纳上的难度。
常用场景
经典使用场景
在软件工程与自然语言处理交汇的广阔疆域,GitHub Issues数据集如同一座蕴藏丰饶的矿山,其最经典的用途便是作为软件缺陷报告与功能请求的文本挖掘基石。研究者常利用其丰富的标题、正文与评论内容,结合状态标签与用户信息,开展自动化的问题分类、严重性评估与优先级排序等任务,从而为开源社区的协作效率提升提供精准的算法支撑。
解决学术问题
该数据集有力地回应了软件开发自动化中的多个关键学术挑战。它使得基于深度学习的缺陷定位与分诊成为可能,解决了传统上依赖人工经验进行问题路由的低效难题。通过对Issue文本与结构化元数据的联合建模,研究者得以探索软件仓库中知识流动的规律,极大地推动了软件仓库挖掘领域的发展,为构建智慧型开发辅助系统奠定了坚实的实证基础。
衍生相关工作
由此数据集衍生出一系列影响深远的经典工作。其中,关于Issue标题与正文的自动摘要生成模型,为快速理解问题核心提供了便捷途径。同时,针对Issue评论的情感分析研究,能够量化社区参与者的情绪波动,为开源项目管理提供了社会技术层面的洞察。此外,将Issue与代码提交历史关联的尝试,催生了缺陷溯源与修复模式发现的交叉研究,进一步深化了对软件开发行为的理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作