five

ultimate_log.csv, complete_eventlog.csv

收藏
github2020-02-10 更新2024-05-31 收录
下载链接:
https://github.com/Mining-multiple-repos-data/experimental_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
ultimate_log.csv用于控制流分析,包含Google Chromium浏览器一年数据的事件日志,用于ITS问题的解决方案补丁。数据集整合了Google问题跟踪系统、Rietveld同行代码审查系统和Subversion版本控制系统。包含四个字段:issue_id(caseID)、activity、timestamp(ts)和who(忽略控制流分析)。共有122007个事件。complete_eventlog.csv用于组织分析,包含四个字段:issue_id(caseID)、activity、timestamp(ts)和who。共有134135个元组,多值who字段表示审查活动,每个审查者对应一个元组。在某些情况下,如果补丁未分配给任何审查者,则who字段为NULL。

The ultimate_log.csv is utilized for control flow analysis, encompassing a year's worth of event logs from the Google Chromium browser, aimed at resolving ITS (Issue Tracking System) problem patches. This dataset integrates data from the Google Issue Tracker, the Rietveld peer code review system, and the Subversion version control system. It comprises four fields: issue_id (caseID), activity, timestamp (ts), and who (omitted for control flow analysis), totaling 122,007 events. The complete_eventlog.csv is designated for organizational analysis, featuring four fields: issue_id (caseID), activity, timestamp (ts), and who. It contains 134,135 tuples, with the multi-valued who field indicating review activities, where each reviewer corresponds to a tuple. In instances where a patch is not assigned to any reviewer, the who field is NULL.
创建时间:
2014-01-24
原始信息汇总

数据集概述

experimental_dataset

数据集1: ultimate_log.csv

  • 用途: 用于控制流分析
  • 数据来源: 整合了Google Issue Tracking System, Rietveld Peer Code Review System和Subversion Version Control System三个软件仓库的数据
  • 时间范围: 2011年7月1日至2012年6月30日
  • 数据内容: 包含122007个事件,记录了Google Chromium浏览器的ITS问题及其解决方案的最终事件日志
  • 数据字段:
    • issue_id (caseID)
    • activity
    • timestamp (ts)
    • who (在控制流分析中忽略)
  • 特别注意: 确保timestamp在Excel中以(yyyy:mm:dd hh:mm:ss)格式显示

数据集2: complete_eventlog.csv

  • 用途: 用于组织分析
  • 数据内容: 包含134135个元组,其中"who"字段为多值字段,每个评审活动对应一个单独的元组
  • 数据字段:
    • issue_id (caseID)
    • activity
    • timestamp (ts)
    • who
  • 特别情况: 在某些情况下,如果补丁未经分配给任何评审者而直接提交,"who"字段为NULL
搜集汇总
数据集介绍
main_image_url
构建方式
ultimate_log.csv与complete_eventlog.csv数据集的构建,是基于Google Chromium浏览器一年(2011年7月1日至2012年6月30日)的ITS问题修复数据。该数据集通过整合三个软件仓库:Google问题跟踪系统、Rietveld代码审查系统和Subversion版本控制系统中的信息而形成。数据集包括四个字段:问题ID(案件标识)、活动类型、时间戳和执行者,其中执行者字段在控制流分析中予以忽略。
特点
这两个数据集具有显著的特点:ultimate_log.csv专注于控制流分析,记录了122007个事件,而complete_eventlog.csv则用于组织分析,包含了134135个带有多个评审者信息的元组。在complete_eventlog.csv中,若补丁提交未分配给任何评审者,则评审者字段为空。此外,时间戳字段需确保以(年:月:日 时:分:秒)格式在Excel中打开。
使用方法
在使用这些数据集时,用户需先对时间戳格式进行正确设置,以便在Excel中顺利读取。针对ultimate_log.csv,用户可利用Disco工具生成流程图,需要确保时间戳格式正确。而complete_eventlog.csv则可用于组织分析,用户需注意处理多值评审者字段,以及可能出现的空评审者字段。
背景与挑战
背景概述
ultimate_log.csv与complete_eventlog.csv数据集,源自于对Google Chromium浏览器在2011年7月1日至2012年6月30日期间,针对已知ITS问题及其修补过程进行的一年期数据分析。该数据集由Google Issue Tracking System、Rietveld Peer Code Review System以及Subversion Version Control System三个软件仓库整合生成,旨在为控制流分析及组织分析提供基础数据。数据集包含了122007个事件记录,以及134135个涉及多值参与者字段的记录,为软件工程及流程挖掘领域的研究提供了宝贵的资源,对于理解软件开发过程中的控制流和组织结构具有重要的研究价值。
当前挑战
该数据集面临的挑战主要在于:1) 如何准确地进行控制流分析,以揭示软件缺陷的生命周期及其修补过程;2) 如何处理和分析多值参与者字段,从而深入理解组织内部的协作模式;3) 在构建过程中,确保时间戳格式的一致性以及处理某些字段可能存在的空值问题,以保证数据的质量和完整性。这些挑战对研究人员提出了数据处理和分析上的严格要求,对相关领域的研究方法和工具提出了进一步的发展需求。
常用场景
经典使用场景
在软件工程领域,ultimate_log.csv与complete_eventlog.csv数据集提供了针对Google Chromium浏览器一年期间ITS问题的事件日志,这些日志经过整合,源自三个软件仓库:Google问题跟踪系统、Rietveld代码审查系统和Subversion版本控制系统。其经典使用场景在于,研究人员可利用这些数据集进行控制流分析,通过分析issue_id、activity、timestamp等字段,构建过程映射,进而洞察软件开发的动态过程。
衍生相关工作
基于该数据集,已衍生出多项相关工作,包括但不限于软件开发过程挖掘、缺陷预测模型构建、开发者行为分析等。这些研究进一步扩展了数据集的应用范围,加深了学术界对软件开发过程的认知,推动了相关理论和实践的进步。
数据集最近研究
最新研究方向
在软件工程与过程挖掘领域,ultimate_log.csv与complete_eventlog.csv数据集的近期研究方向主要集中在控制流分析与企业组织分析。基于ultimate_log.csv的Control Flow分析,研究者致力于通过整合不同软件仓库的日志数据,探究缺陷修复过程中的活动模式与时间序列特征,从而优化软件开发流程。而围绕complete_eventlog.csv的组织分析研究,则着眼于软件开发中的人际网络与协作模式,通过分析多值 reviewer 字段,揭示项目团队结构与协作效率的相关性。此类研究对于提升软件开发的质量管理与团队协作效率具有重要影响与实际应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作