GHTrafﬁc

Name: GHTrafﬁc
Creator: 梅西大学
Published: 2018-06-09 17:43:17
License: 暂无描述

arXiv2018-06-09 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/1034573/files/ghtraffic-S-1.0.0.zip, https://zenodo.org/record/1034573/files/ghtraffic-M-1.0.0.zip, https://zenodo.org/record/1034573/files/ghtraffic-L-1.0.0.zip

下载链接

链接失效反馈

官方服务：

资源简介：

GHTrafﬁc数据集是由梅西大学和CA Technologies合作创建的，旨在支持服务导向计算的可重复研究。该数据集包含从GitHub数据中提取的HTTP交易，并辅以合成交易数据，以增强数据集的多样性和丰富性。数据集的创建过程涉及从GitHub的API交互中逆向工程，以及使用合成数据来补充无法从快照中恢复的交互。GHTrafﬁc数据集适用于多种研究，包括性能基准测试和服务虚拟化，旨在解决服务导向计算中的可重复性和通用性问题。

The GHTraffic dataset was collaboratively created by Massey University and CA Technologies to support reproducible research in service-oriented computing. This dataset contains HTTP transactions extracted from GitHub data, supplemented with synthetic transaction data to enhance the diversity and richness of the dataset. The dataset creation process involves reverse engineering GitHub's API interactions, as well as using synthetic data to complement interactions that cannot be recovered from snapshots. The GHTraffic dataset is applicable to a variety of research areas including performance benchmarking and service virtualization, and aims to address the issues of reproducibility and generalizability in service-oriented computing.

提供机构：

梅西大学

创建时间：

2018-06-09

搜集汇总

数据集介绍

构建方式

在面向服务计算领域，构建具有现实意义的HTTP事务数据集对于推动可重复性研究至关重要。GHTraffic数据集的构建采用了混合方法，其核心数据源自GitHub这一大规模协作平台的真实交互记录。研究团队首先从GHTorrent项目提供的2015年8月4日数据库快照中提取基础数据，该快照静态记录了GitHub仓库的状态信息。通过逆向工程，将快照中议题（issue）的生命周期事件（如创建、关闭时间戳）映射为符合GitHub REST API规范的HTTP事务，例如POST和PATCH请求。为了弥补静态快照无法捕获的交互（如查询请求、失败事务），研究团队进一步引入了合成数据生成机制。该机制基于快照中的资源标识符，模拟生成了包括GET、HEAD、PUT、DELETE在内的多种HTTP方法请求，并精心构造了代表授权失败、资源未找到、服务器错误等场景的响应，从而确保了数据在语法和语义上的丰富性与正确性。整个处理流程采用流式设计，通过可配置的过滤器支持生成不同规模和数据一致性的数据集版本。

特点

GHTraffic数据集显著区别于早期仅关注GET和POST方法的Web基准测试数据，它深度刻画了现代RESTful服务的交互复杂性。该数据集全面覆盖了HTTP/1.1协议中的多种方法（POST, GET, PATCH, DELETE, PUT, HEAD）和丰富的状态码（200, 201, 204, 400, 401, 404, 422, 500），精准反映了真实API在成功、客户端错误及服务器错误等多种场景下的行为模式。数据集包含真实提取与人工合成的混合事务，其中合成数据占比更高，旨在系统性地补全现实世界中可观测与不可观测的交互序列。数据以JSON格式序列化，并严格遵循为每种HTTP方法单独定义的JSON Schema，确保了数据的结构化与自描述性。此外，数据集提供了小型（S）、中型（M）、大型（L）三种不同规模的版本，分别基于单个或多个活跃GitHub项目生成，在保证数据量足以支持泛化研究的同时，兼顾了使用的便捷性与实验的可管理性。

使用方法

该数据集旨在为面向服务计算的多个研究方向提供标准化的评估基准。研究者可通过公开的Zenodo数据仓库获取不同规模的GHTraffic数据集压缩包。在性能基准测试场景中，数据集包含的大量、复杂且符合现实的HTTP事务序列可用于模拟真实工作负载，驱动对Web服务器、应用服务器或代理等系统组件的压力测试与性能度量。在功能测试方面，数据集内嵌的HTTP语义与GitHub议题API的特定规则可充当正确行为预言机，用于验证REST框架或服务实现是否符合预期。对于服务虚拟化研究，数据集记录的请求-响应对序列可作为监督机器学习算法的训练数据，用于构建能够模拟真实服务行为的语义模型。高级用户还可以访问项目源代码库，利用提供的配置脚本与工具，通过调整过滤器参数（如按特定项目筛选）从更新的GHTorrent快照生成定制化的数据集版本，以满足特定实验需求。

背景与挑战

背景概述

在面向服务计算领域，随着RESTful架构的普及，HTTP协议成为构建大规模分布式系统的核心。然而，该领域长期缺乏能够支持可重复性研究的标准化数据集，制约了性能基准测试、功能验证及服务虚拟化等关键研究的发展。为此，新西兰梅西大学与CA Technologies的研究团队于2018年联合推出了GHTraffic数据集。该数据集通过逆向工程GitHub的GHTorrent快照数据，并融合合成事务数据，构建了涵盖多种HTTP方法与状态码的大规模事务集合。其核心目标在于为面向服务计算提供可复现、可比较且具普遍性的实验基准，从而推动该领域在可扩展性、可靠性与安全性等方面的实证研究。

当前挑战

GHTraffic数据集致力于解决面向服务计算中性能基准测试与系统行为建模的挑战，其核心在于模拟真实世界HTTP服务的复杂交互模式，包括多样化的请求方法、状态码及事务序列。然而，在构建过程中面临双重困难：其一，从静态快照数据中逆向推导动态API交互存在固有局限，例如无法直接捕获只读查询或失败事务，需依赖合成数据填补空白，这可能导致生成的事务与真实负载存在偏差；其二，为确保数据集的规模与多样性，需在涵盖GitHub丰富API特征的同时保持数据可管理性，这要求对原始海量数据进行精心筛选与语义建模，以平衡真实性与实用性。

常用场景

经典使用场景

在面向服务计算领域，GHTraffic数据集为性能基准测试提供了理想的实验平台。该数据集通过从GitHub真实API交互中提取并合成HTTP事务，构建了大规模且多样化的网络流量记录，能够模拟现代Web服务中复杂的负载场景。研究人员可利用其丰富的请求方法、状态码及事务序列，对服务系统在高并发、异常处理等方面的表现进行精准评估，从而推动服务架构的优化与创新。

实际应用

在实际工程环境中，GHTraffic被广泛应用于企业级服务的测试与验证。例如，在微服务架构中，开发团队可利用该数据集模拟外部API的调用行为，对服务依赖进行隔离测试；运维人员则能基于其生成的负载模型，评估系统在峰值流量下的稳定性与扩展性。此外，数据集支持的服务虚拟化技术，有助于在持续集成流程中快速构建测试环境，降低对外部服务的耦合度，提升软件交付效率与质量。

衍生相关工作

GHTraffic的发布催生了多项面向服务计算领域的经典研究。例如，基于其事务序列的服务行为建模工作，推动了机器学习在API异常检测中的应用；在性能优化方面，研究者利用数据集的负载特征设计了动态资源调度算法。同时，该数据集常被引用于服务组合、API安全测试等方向，为后续如GHTorrent生态的扩展研究提供了数据基础，形成了从数据采集到方法创新的良性循环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集