Dataset on Resource Allocation and Usage for a Private Cloud

github2025-12-18 更新2025-12-21 收录

下载链接：

https://github.com/ufcg-lsd/private-cloud-data-v2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自巴西坎皮纳格兰德联邦大学分布式系统实验室运营的基于OpenStack的私有云的大约一年运营记录。数据集由七个CSV文件组成，每个文件代表一个不同的数据表，包括项目配额、分配的资源、用户项目、服务器规格、服务器所有权、服务器使用情况和规格类型等。

This dataset contains approximately one year of operational records from an OpenStack-based private cloud operated by the Distributed Systems Lab of the Federal University of Campina Grande, Brazil. The dataset consists of seven CSV files, each representing a distinct data table, including project quotas, allocated resources, user projects, server specifications, server ownership, server usage, and specification types, etc.

创建时间：

2025-12-15

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Dataset on Resource Allocation and Usage for a Private Cloud
数据来源：巴西坎皮纳斯联邦大学分布式系统实验室运营的基于OpenStack的私有云
数据收集时长：约一年
数据存储平台：Mendeley Data
数据标识符：DOI: 10.17632/trvb5k4x5m.1
数据许可协议：CC-BY Attribution 4.0 License (https://creativecommons.org/licenses/by/4.0/)

数据内容与结构

数据集包含七个CSV文件，具体如下：

1. projects_quota.csv

timestamp: 收集时间（UNIX纪元秒）
project_id: 唯一项目标识符（UUID）
quota_ram: 项目可用的RAM配额（MB）
quota_vcpu: 项目可用的vCPU配额

2. projects_quota_allocated.csv

id: 唯一行标识符
timestamp: 收集时间（UNIX纪元秒）
project_id: 唯一项目标识符（UUID）
ram_allocated: 每个项目已分配的RAM配额（MB）
vcpu_allocated: 每个项目已分配的vCPU配额

3. user_projects.csv

id: 唯一行标识符
timestamp: 收集时间（UNIX纪元秒）
user_id: 唯一用户标识符（UUID）
project_id: 唯一项目标识符（UUID）

4. servers_specs.csv

id: 唯一行标识符
timestamp: 收集时间（UNIX纪元秒）
server_id: 唯一服务器标识符（UUID）
flavor_id: 唯一规格标识符（UUID）

5. servers_ownerships.csv

id: 唯一行标识符
timestamp: 收集时间（UNIX纪元秒）
server_id: 唯一服务器标识符（UUID）
user_id: 唯一用户标识符（UUID）
project_id: 唯一项目标识符（UUID）

6. servers_usage.csv

id: 唯一行标识符
timestamp: 收集时间（UNIX纪元秒）
server_id: 唯一服务器标识符（UUID）
vcpu_usage: vCPU使用率（%）
ram_usage: 内存（RAM）使用率（%）
host_id: 计算主机标识符

7. flavors.csv

flavor_id: 唯一规格标识符（UUID）
flavor_name: 规格名称
vcpu: 规格中定义的vCPU数量
ram: 规格中定义的RAM容量（MB）
disk: 规格中定义的磁盘容量（GB）

使用说明

数据获取：数据集以ZIP压缩包形式提供于Mendeley Data，可使用 unzip "Dataset on Resource Allocation and Usage for a Private Cloud.zip" 命令解压。
引用要求：若在出版物或项目中使用本数据，请引用：

Marques, Paola; Mendes, Mariana; Pereira, Thiago Emmanuel; Farias, Giovanni (2025), “Dataset on Resource Allocation and Usage for a Private Cloud”, Mendeley Data, V1, doi: 10.17632/trvb5k4x5m.1
配套资源：本代码仓库包含示例数据收集脚本和用于基于数据集生成图表的R Markdown笔记本。

搜集汇总

数据集介绍

构建方式

在私有云资源管理领域，数据集的构建往往依赖于实际运行环境的长期监控与记录。本数据集源自巴西坎皮纳斯联邦大学分布式系统实验室运营的基于OpenStack的私有云平台，通过持续约一年的系统运行数据采集而成。数据收集过程涵盖了资源配额分配、虚拟机规格配置以及实时使用情况等多个维度，形成了七个结构化的CSV文件，每个文件均以时间戳为基准，确保了数据的时间序列特性与完整性。

特点

该数据集的特点在于其全面覆盖了私有云环境中资源分配与使用的关键层面。数据集不仅包含项目级别的资源配额与分配记录，还详细记录了用户与项目的关联关系、虚拟机的规格定义及其所有权归属。尤为突出的是，数据集提供了服务器级别的实时CPU与内存使用率数据，并关联了计算主机标识，为深入分析资源利用率与负载分布提供了丰富信息。所有数据均以统一的时间戳进行标记，便于进行时序分析与动态模式挖掘。

使用方法

使用本数据集时，研究者可首先通过解压提供的ZIP压缩包获取原始CSV文件。数据集遵循CC-BY 4.0许可协议，使用时需按规定进行引用。每个CSV文件对应一个特定的数据表，例如项目配额、服务器使用情况等，用户可根据研究需求进行关联查询与整合分析。随数据集提供的示例脚本与R Markdown笔记本可用于数据可视化与初步探索，帮助用户快速理解数据结构并生成相关图表。

背景与挑战

背景概述

在云计算技术迅猛发展的时代背景下，私有云因其在数据安全与资源定制方面的独特优势，成为学术界与工业界关注的焦点。由巴西坎皮纳斯联邦大学分布式系统实验室于2025年发布的私有云资源分配与使用数据集，正是这一领域的重要实证资源。该数据集基于OpenStack平台，采集了约一年运营周期内的详细记录，涵盖了项目配额、服务器规格、用户归属及资源使用率等多维信息。其核心研究问题聚焦于私有云环境下的资源动态分配机制与实际使用模式，旨在为优化云资源管理、提升能效以及设计智能调度算法提供可靠的数据基础。该数据集的公开不仅推动了云计算资源管理研究的实证化进程，也为相关领域的算法验证与性能评估设立了新的基准。

当前挑战

该数据集致力于解决私有云环境中资源高效分配与利用的核心挑战，具体包括如何在多租户场景下实现CPU与内存资源的公平调度、如何精准预测资源需求以避免过度配置或性能瓶颈，以及如何通过历史使用数据优化长期资源规划。在构建过程中，研究团队面临多重技术难题：首先，从复杂的OpenStack生态系统中持续、无干扰地采集多源异构数据，并确保时间序列的一致性是一项艰巨任务；其次，处理海量实时监控数据时，需在数据精度与存储开销之间取得平衡；此外，为保护用户隐私，需对原始标识信息进行匿名化处理，同时保持数据在分析中的可用性与关联性，这进一步增加了数据清洗与整合的复杂性。

常用场景

经典使用场景

在云计算资源管理领域，该数据集为研究者提供了宝贵的实证基础。其经典使用场景聚焦于私有云环境中资源分配与利用模式的深度分析，通过整合项目配额、服务器规格及实时使用率等多维度时序数据，支持对虚拟化资源调度策略的效能评估。研究人员可借助此类数据，构建资源预测模型或仿真平台，以揭示云计算基础设施在长期运行中的动态行为特征。

实际应用

在实际运维层面，该数据集可直接应用于私有云平台的性能调优与成本控制。云管理员可借鉴其中的资源使用模式，优化初始配额设置，避免硬件资源闲置或争用。同时，数据中反映的长期趋势能为基础设施扩容决策提供参考，辅助设计更精细的计费策略或自动化调度规则，最终提升云平台的服务质量与运营效益。

衍生相关工作

基于该数据集衍生的经典工作主要集中在智能资源管理方向。学者们利用其时序特性开发了预测性伸缩框架，以减少资源浪费；亦有研究结合机器学习方法，从使用模式中识别异常或预测未来需求。这些工作不仅深化了对云资源动态性的理解，还催生了多种开源工具与算法库，促进了学术界与工业界在云优化领域的知识共享。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集