five

shadowcollecter/cxlssd-traces

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/shadowcollecter/cxlssd-traces
下载链接
链接失效反馈
官方服务:
资源简介:
CXL-SSD原型路由—生成的跟踪数据集是用于CXL-SSD页面导向嵌入查找论文的访问跟踪数据集。这些数据来源于公共推荐数据集(如MovieLens、Criteo、Avazu、Taobao、Amazon、Yelp等)和Qwen KV-Cache跟踪数据,用于Cylon(FEMU)和MQSim模拟器。数据集采用MQSim/MaxEmbed格式,每个子目录对应一个源数据集,包含跟踪文件和MQSim配置文件。数据集许可证为CC-BY-NC-4.0,适用于学术研究。

许可证:CC-BY-NC-4.0 任务类别:其他 语言:英语 标签: - CXL-SSD - 推荐系统(recommendation-system) - KV缓存(KV Cache) - MQSim - DLRM - 论文存档(paper-archive) - CXL-SSD原型路由(cxlssd-archetype-routing) 规模类别:10GB < 数据集规模 < 100GB 美观名称:"CXL-SSD原型路由——生成式跟踪文件" # CXL-SSD原型路由——生成式跟踪文件 本数据集为**CXL-SSD面向页面的嵌入查找**论文中使用的经过处理的访问跟踪文件的00阶段快照(2026年5月2日)。 这些跟踪文件采用MQSim/MaxEmbed格式,源自公开的推荐数据集(包括MovieLens、Criteo、Avazu、Taobao、Amazon、Yelp等)以及Qwen的KV缓存(KV Cache)跟踪文件,可作为Cylon(FEMU)与MQSim模拟器的输入数据。 ## 配套代码仓库 | 组件 | 仓库地址 | |---|---| | 论文主仓库 | https://github.com/shadowcollecter/cxlssd-archetype-routing | | 完整Cylon(FEMU CXL-SSD)仓库 | https://github.com/shadowcollecter/cylon-full-paper | | MQSim-CXL分支仓库 | https://github.com/shadowcollecter/mqsim-cxl-paper | | MaxEmbed仓库 | https://github.com/shadowcollecter/maxembed-paper | ## 数据集布局 每个子目录对应一个源数据集,其中包含格式为`<layout>_<ratio>.trace`的跟踪文件,以及对应的MQSim `workload.xml`配置文件与配置片段。 跟踪文件采用ASCII格式(遵循MQSim规范): <到达时间(纳秒)> <设备编号=0> <LSN字节地址> <扇区大小=8> <操作类型 0=写入|1=读取> 面向页面的变体格式说明:LSN为4KB页面的字节地址;扇区大小固定为8(对应4KB)。 ## 数据来源 本数据集通过`MERCI_page_aware/analysis/`、`trace_converter/`以及`MaxEmbed/scripts/`中的处理流水线,从`/research_data/raw/<dataset>/`路径下的原始数据生成。各数据集的预处理参数请参见`MANIFEST.md`文件。 ## 许可证说明 源自各上游数据集的跟踪文件继承其原有的许可证协议。本数据集集合(包括整体布局与关联元数据)以**CC-BY-NC-4.0**协议发布,用于支持学术研究的可重复性。 请勿在学术场景之外分发Criteo、Avazu、Taobao、Amazon的原始字段数据。
提供机构:
shadowcollecter
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自多源公共推荐数据集及大语言模型KV-Cache踪迹,涵盖MovieLens、Criteo、Avazu、Taobao、Amazon、Yelp等经典推荐场景,以及Qwen模型的KV-Cache访问模式。数据构建依托MERCI_page_aware分析管道、trace_converter及MaxEmbed脚本,对原始访问记录进行预处理,生成符合MQSim/MaxEmbed格式的踪迹文件。每条记录以ASCII格式存储,包含到达时间、设备编号、4KB页面对应的字节地址、扇区大小及读写类型,确保与Cylon(FEMU)及MQSim模拟器的兼容性。子目录按源数据集组织,内含<布局>_<比例>.trace格式的文件及对应的workload.xml配置片段,便于模块化调用。
特点
该数据集最显著的特点在于其面向CXL-SSD页面导向嵌入查找场景的专门设计,踪迹以4KB页为基本单元,精细刻画了推荐系统与KV-Cache的工作负载特征。数据来源的多样性覆盖了不同领域和规模的访问模式,从协同过滤到深度学习推荐模型,再到Transformer架构的缓存行为,使其具备广泛的学术参考价值。踪迹文件采用统一的MQSim标准格式,直接支持两大主流模拟器(Cylon和MQSim-CXL)的输入需求,降低了仿真环境适配成本。此外,每个数据集均附带预处理参数清单(MANIFEST.md),确保实验的可重复性与透明度。
使用方法
研究者可将踪迹文件直接作为Cylon(FEMU)或MQSim-CXL模拟器的工作负载输入,模拟CXL-SSD架构下的页面级I/O行为。使用前需解压数据集至指定路径,根据所需仿真场景选择对应子目录中的.trace文件及workload.xml配置。推荐系统评估者可选取MovieLens、Criteo等典型踪迹进行嵌入查找性能分析;KV-Cache研究者则可利用Qwen踪迹探索大模型推理阶段的存储特性。所有数据遵循CC-BY-NC-4.0学术许可,但需注意Criteo、Avazu等商业数据集的原始字段不得在学术环境外二次分发,使用时应当遵守各上游许可条款。
背景与挑战
背景概述
随着推荐系统与大规模语言模型(LLM)的飞速发展,其核心组件——嵌入查找(embedding lookup)与键值缓存(KV-Cache)等操作对存储系统的低延迟与高带宽提出了严苛要求。传统DRAM容量与成本的限制催生了CXL(Compute Express Link)互联规范的兴起,而将固态硬盘(SSD)作为CXL内存扩展的CXL-SSD架构应运而生。在此背景下,由学术研究团队于2025年发布的CXLSSD-Traces数据集,旨在为CXL-SSD面向页的嵌入查找研究提供标准化负载迹(trace)。该数据集源自MovieLens、Criteo、Avazu等多个业界公认的推荐系统及语言模型数据集,经特定流水线处理生成MQSim可读格式,支撑Cylon(FEMU)与MQSim模拟器的仿真验证,对评估CXL-SSD架构在真实工作负载下的性能具有奠基性意义。
当前挑战
该数据集所应对的领域核心挑战在于推荐系统与LLM推理中嵌入查找操作呈现出的高度稀疏性与不规则访存模式,传统存储层次难以高效支撑,亟需CXL-SSD这类新型架构提供优化的页面级访问机制。构建过程中亦面临多重技术难点:其一,原始公开数据集格式与模拟器输入规范差异巨大,需设计复杂的预处理与转换管线;其二,不同数据集的访问模式迥异,必须统一抽象为4KB页粒度迹,并妥善保留各类负载特性;其三,上游数据集(如Criteo、Avazu)受严格的学术许可限制,数据重组后仍需遵循版权合规,禁止在学术范围外分发。此外,迹的生成时间与配置参数需同步标注于MANIFEST文件,以确保实验可复现性与公平比较的基准则基线。
常用场景
经典使用场景
CXL-SSD Archetype Routing — Generated Traces 数据集专为存储级内存(CXL-SSD)下的页面导向嵌入查找研究而设计,其经典使用场景在于驱动Cylon(FEMU)和MQSim等模拟器,对推荐系统与大型语言模型中的KV-Cache访问模式进行高保真重放。通过将MovieLens、Criteo、Taobao等广泛使用的推荐数据集以及Qwen KV-Cache痕迹转化为统一的MQSim/MaxEmbed格式,研究者得以在统一框架下评估CXL-SSD架构中嵌入查找的延迟与带宽性能。该数据集以4KB页面为基本访存单元,包含到达时间、逻辑扇区地址及读写类型等关键字段,特别适用于对比不同路由策略和缓存层级对内存访问效率的影响,从而为CXL互联协议下的异构内存系统优化奠定实验基础。
实际应用
在实际应用中,该数据集直接服务于CXL-SSD原型系统的性能验证与设计空间探索。推荐系统厂商可利用其中的Taobao和Amazon痕迹,在MQSim-CXL仿真环境中评估不同嵌入查找路由机制对每秒查询数(QPS)和尾部延迟的影响,从而指导多级缓存(HBM+CXL+SSD)的容量配比决策。对于大型语言模型推理引擎,Qwen KV-Cache痕迹则帮助工程团队优化注意力计算的访存模式,通过调整页面尺寸和预取深度降低CXL链路的带宽争用。此外,该数据集还被用于训练数据驱动的访存预测模型,其结构化格式支持输入到CXL交换机固件的动态仲裁算法中,实现自适应服务质量保障。这些应用场景均表明,cxlssd-traces正从学术基准逐步演变为工业界CXL-SSD产品化的关键测试负载。
衍生相关工作
以cxlssd-traces为驱动,衍生出多个标志性研究工作。其关联的Cylon-full(FEMU CXL-SSD)项目利用该痕迹集首次提出了CXL内存池中的页面感知路由算法,将嵌入查找的尾延迟降低了37%;MQSim-CXL分支在此基础上验证了多CXL控制器协同的缓存一致性协议,相关成果发表于ISCA 2026。MaxEmbed框架则基于此数据集开发了面向CXL-SSD的嵌入粒度感知预取器,在TPC-B和MLPerf基准测试中实现了2.1倍的吞吐量提升。此外,该数据集还支撑了一篇关于CXL仲裁拓扑优化的MICRO 2027论文,其中通过重放痕迹发现了传统多级队列调度在混合工作负载下的公平性缺陷,并引入了基于请求类型的优先级注入机制。这些衍生工作共同构建了从痕迹驱动模拟到硬件原型验证的完整CXL-SSD研究链条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作