five

TechnicalDebt_GitHubIssues_PT

收藏
Hugging Face2025-07-26 更新2025-07-27 收录
下载链接:
https://huggingface.co/datasets/IuryCavalcante/TechnicalDebt_GitHubIssues_PT
下载链接
链接失效反馈
官方服务:
资源简介:
Technical Debt in GitHub Issues (Portuguese)数据集收集了提及“技术债务”或其葡萄牙语变体的GitHub公共issues。该数据集旨在支持软件工程、自然语言处理和人工智能领域的研究,特别是对开发者如何沟通技术债务概念的理解和文本分类。数据集的每条记录包含issue的唯一ID、创建或更新日期、标题、直接链接、完整描述等,并通过定性分析进行了分类。
创建时间:
2025-07-16
原始信息汇总

Technical Debt in GitHub Issues (Portuguese) 数据集概述

基本信息

  • 许可证: CC BY 4.0
  • 任务类别: 文本分类
  • 语言: 葡萄牙语 (pt)
  • 标签: technical-debt, github, software-engineering, portuguese
  • 数据集名称: Technical Debt in GitHub Issues (Portuguese)
  • 规模: 小于1K样本

数据集概述

该数据集收集了GitHub上公开提及"dívida técnica"(技术债务)或其葡萄牙语变体的issues。旨在支持软件工程、自然语言处理(NLP)和人工智能领域的研究,特别是关于开发者如何沟通技术债务概念的理解和分类。

数据结构

每条记录代表一个GitHub issue,包含以下字段:

  • ID: GitHub issue的唯一标识符
  • Data: issue创建或更新的日期
  • Título: issue标题
  • Link: GitHub上issue的直接URL
  • Descrição: issue完整文本(包括描述和适用时的评论)
  • # watching: 关注该issue的用户数量
  • # star: 仓库的星标数量
  • Status: issue状态(如open, closed)
  • Repositório: 来源仓库名称
  • Contexto de uso: 根据研究文章*1归纳的使用上下文分类
  • Categoria: 根据研究文章*1归纳的类别分类

*1 - 使用上下文和类别分类是基于对该数据集issues的定性分析结果 *2 - 数据集仅包含公开仓库信息,不含敏感或私人数据

应用场景

  • 监督文本分类
  • 技术概念的定性和定量分析
  • 葡萄牙语技术文本的NLP模型训练
  • 协作环境中技术债务沟通的研究

许可信息

数据集采用CC BY 4.0许可,允许在使用、重新分发和改编时进行适当署名。

引用要求

使用本数据集时请引用相关研究文章。

搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,技术债务作为衡量代码质量的重要概念,其实际应用场景的文本分析具有显著研究价值。TechnicalDebt_GitHubIssues_PT数据集通过系统采集GitHub平台上包含葡萄牙语技术债务相关术语的公开issue构建而成,采用定性分析方法对issue内容进行双重标注,形成包含ID、时间戳、文本内容及衍生指标的结构化数据。数据采集过程严格遵循开源协议规范,确保所有样本均来自公开仓库且不含敏感信息。
特点
该数据集独特之处在于聚焦葡萄牙语技术社区的实践表达,包含开发者对技术债务的现象描述、问题讨论等真实语料。每条记录不仅保留原始文本特征,还附有仓库活跃度指标和经学术研究验证的上下文分类标签,为研究技术债务的语义表征提供多维度分析视角。其小规模精选特性使数据具有较高信噪比,特别适合探索性研究和模型微调。
使用方法
研究者可利用该数据集开展跨语言技术债务研究,通过文本分类模型识别不同语境下的债务类型。在自然语言处理领域,其专业术语丰富的葡萄牙语语料可增强领域适应性预训练。数据分析时应注意结合附带的元数据特征,如issue状态和仓库关注度,这些指标能有效辅助构建更精确的技术债务影响评估模型。使用前建议查阅原始研究文献以充分理解分类体系的理论基础。
背景与挑战
背景概述
TechnicalDebt_GitHubIssues_PT数据集聚焦于软件工程领域的技术债务研究,由学术研究团队基于GitHub公开的葡萄牙语issue构建而成。该数据集创建于近年来自然语言处理技术在软件工程领域应用蓬勃发展的背景下,旨在探究开发者在协作环境中如何表述和沟通技术债务这一核心概念。通过系统收集包含“dívida técnica”及其变体的GitHub issues,研究者们为技术债务的实证研究提供了首个葡萄牙语文本分类基准,填补了非英语技术债务语料库的空白,对软件维护、项目管理等子领域具有显著的理论价值。
当前挑战
该数据集面临双重挑战:在领域问题层面,技术债务的表述具有高度语境依赖性,开发者在issue中常使用隐喻或非标准化描述,这给文本分类模型的语义理解带来困难;在构建过程层面,葡萄牙语技术术语的形态变化复杂,且开源社区用语存在大量非正式表达,导致数据清洗和标注工作需依赖领域专家进行多轮人工校验。此外,技术债务讨论常分散在长篇issue对话中,有效提取关键语义单元需要设计特殊的文本分段策略。
常用场景
经典使用场景
在软件工程领域,TechnicalDebt_GitHubIssues_PT数据集为研究技术债务的识别与分类提供了重要资源。该数据集通过收集GitHub上公开的葡萄牙语issue,涵盖了开发者对技术债务的讨论,为文本分类模型的训练与评估提供了标准化的语料库。研究人员可利用该数据集深入探究技术债务在开源项目中的表现形式及其对软件开发的影响。
衍生相关工作
围绕该数据集已产生多项重要研究,包括技术债务自动分类系统的开发、多语言技术债务比较分析等。部分研究进一步扩展了原始分类体系,提出了更精细的技术债务类型学。这些工作不仅验证了数据集的学术价值,也为后续研究提供了方法论参考。
数据集最近研究
最新研究方向
在软件工程领域,技术债务已成为影响项目可持续性的关键因素。TechnicalDebt_GitHubIssues_PT数据集聚焦于葡萄牙语技术社区,通过GitHub公开问题追踪技术债务的实践表达。当前研究主要探索自然语言处理模型在跨语言技术债务分类中的应用,结合深度学习算法分析开发者讨论中的隐含语义模式。该数据集支持技术债务识别自动化研究,为量化分析开源社区技术管理实践提供语言特异性基准。随着敏捷开发的普及,相关成果正推动技术债务可视化工具的开发,并促进跨文化软件开发方法论比较研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作