VTEX Cache Dataset
收藏github2024-05-10 更新2024-05-31 收录
下载链接:
https://github.com/ufcg-lsd/vtex-ufcg-cache-dataset
下载链接
链接失效反馈官方服务:
资源简介:
收集的缓存工作负载包含56,311,983条记录,这是在2022年12月13日21:00至12月14日07:00(GMT-3)期间,对多个租户目录中产品的所有缓存请求的10%随机样本。数据组织在一个大小为5.3GB的单个.csv文件中,通过.tar.gz格式压缩至3.1GB以优化存储和传输。数据字段包括请求时间戳、租户标识符、产品标识符和响应大小。
The collected cache workload comprises 56,311,983 records, representing a 10% random sample of all cache requests for products across multiple tenant directories from 21:00 on December 13, 2022, to 07:00 on December 14, 2022 (GMT-3). The data is organized in a single .csv file with a size of 5.3GB, compressed to 3.1GB in .tar.gz format to optimize storage and transmission. The data fields include request timestamps, tenant identifiers, product identifiers, and response sizes.
创建时间:
2024-05-09
原始信息汇总
vtex-ufcg-cache-dataset 概述
数据集基本信息
- 数据集名称: VTEX Cache Dataset
- 记录数量: 56,311,983 条
- 采样时间: 2022年12月13日21:00至2022年12月14日07:00 (GMT-3)
- 采样比例: 10% 的随机样本
- 数据文件: 原始.csv文件大小为5.3GB,压缩后为3.1GB
数据组织
- 文件格式: .csv
- 压缩格式: .tar.gz
数据字段
| 字段名 | 类型 | 描述 |
|---|---|---|
| Request Timestamp | Timestamp | 请求到达缓存层的Unix时间戳 |
| Tenant Identifier | String | 请求的租户标识符 |
| Product Identifier | String | 请求的产品标识符 |
| Response Size | Integer | 返回响应的大小,以字节为单位 |
数据集内容
- 涉及产品: 23,493,139 个不同产品
- 涉及租户: 4,894 个不同租户
- 数据匿名化: 为保护商业敏感信息,租户ID和产品ID已匿名化处理
搜集汇总
数据集介绍

构建方式
VTEX Cache Dataset是通过对多个租户目录的产品缓存请求进行随机采样构建而成。该数据集包含了2022年12月13日21:00至12月14日07:00(GMT-3)期间,所有缓存请求的10%样本,共计56,311,983条记录。数据以.csv格式组织,原始大小为5.3 GB,经过.tar.gz压缩后降至3.1 GB,以优化存储与传输效率。数据集涵盖了来自4,894个不同租户的23,493,139种产品的请求记录,并进行了匿名化处理,以保护商业敏感信息。
特点
VTEX Cache Dataset的主要特点在于其大规模的数据量和多维度的信息结构。该数据集包含了请求时间戳、租户标识符、产品标识符以及响应大小等关键字段,能够全面反映缓存层的工作负载特性。此外,数据集的匿名化处理确保了商业敏感信息的安全性,同时保留了足够的信息用于分析和研究。通过这种结构化的数据组织方式,研究者可以深入探讨缓存系统的性能、效率及优化策略。
使用方法
VTEX Cache Dataset适用于多种缓存系统性能分析与优化研究。用户可以通过分析请求时间戳和响应大小,评估缓存层的响应速度与资源利用率;通过租户和产品标识符,研究不同租户和产品的缓存行为差异。数据集的.csv格式便于使用标准数据处理工具进行读取和分析,而.tar.gz压缩格式则方便了数据的传输与存储。研究者可以根据具体需求,利用该数据集进行缓存策略的模拟、性能评估及优化方案的验证。
背景与挑战
背景概述
VTEX Cache Dataset是由VTEX公司收集并发布的一个大规模缓存工作负载数据集,涵盖了2022年12月13日至14日期间的多租户产品目录缓存请求的10%随机样本。该数据集包含56,311,983条记录,涉及23,493,139个不同产品和4,894个租户的请求。数据集的核心研究问题集中在缓存系统的高效管理和性能优化上,特别是在多租户环境下的资源分配与响应时间控制。通过匿名化处理,该数据集保护了商业敏感信息,同时为缓存系统研究提供了宝贵的实证数据,对提升缓存技术在电子商务领域的应用具有重要意义。
当前挑战
VTEX Cache Dataset在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,处理和存储5.3 GB的原始数据需要高效的压缩和传输技术,如使用.tar.gz格式将数据压缩至3.1 GB。其次,多租户环境下的缓存管理复杂,如何在不同租户和产品之间实现高效的资源分配和负载均衡是一个关键问题。此外,数据集的匿名化处理虽然保护了商业敏感信息,但也增加了数据分析的难度,特别是在需要识别特定租户或产品行为时。最后,如何从海量数据中提取有价值的模式和趋势,以优化缓存策略和提升系统性能,是该数据集面临的另一大挑战。
常用场景
经典使用场景
VTEX Cache Dataset在缓存系统性能分析和优化领域具有广泛的应用。通过分析该数据集中的请求时间戳、租户标识、产品标识及响应大小等关键字段,研究者能够深入探讨缓存命中率、响应时间分布及资源利用率等核心指标。这些分析有助于识别缓存系统的瓶颈,进而提出针对性的优化策略,提升系统的整体性能和用户体验。
解决学术问题
该数据集为解决缓存系统中的关键学术问题提供了宝贵的实证数据。通过分析大规模的缓存请求记录,研究者可以验证和改进现有的缓存替换算法、负载均衡策略及资源分配模型。此外,该数据集还为研究缓存系统的动态行为、请求模式的变化及系统鲁棒性提供了丰富的数据支持,推动了缓存技术在理论和实践上的进一步发展。
衍生相关工作
基于VTEX Cache Dataset,研究者已开展了一系列相关工作。例如,有研究利用该数据集验证了多种缓存替换算法的有效性,并提出了改进方案。此外,还有工作探讨了如何利用机器学习技术预测缓存命中率和响应时间,从而实现更智能的缓存管理。这些衍生工作不仅丰富了缓存技术的研究内容,也为实际应用提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成



