Qwen-Bailian Anonymous Dataset

github2025-06-10 更新2025-06-12 收录

下载链接：

https://github.com/alibaba-edu/qwen-bailian-usagetraces-anon

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个两小时的匿名KVCache跟踪记录，记录了发送到阿里云百炼上单个Qwen模型服务实例的请求。它用于验证LLM服务系统的设计技术，并激发未来的使用，收集了以下关键工作负载特征：请求的时间分布、输入/输出令牌长度、会话结构和聊天轮次模式、请求类型组成（文本、搜索、图像、文件）。

This dataset contains a two-hour anonymous KVCache trace that records requests sent to a single Qwen model service instance deployed on Alibaba Cloud Bailian. It is used to validate design techniques for LLM service systems and inspire future applications, and includes the following key workload characteristics: temporal distribution of requests, input and output token lengths, session structure and chat turn patterns, as well as the composition of request types (text, search, image, file).

创建时间：

2025-05-20

原始信息汇总

Qwen-Bailian匿名数据集概述

数据集简介

包含两小时的匿名KVCache请求追踪数据
数据来源：阿里云百炼平台上的单Qwen模型服务实例
用途：验证LLM服务系统设计技术，启发未来应用场景

关键特征

生产代表性：保留真实流量模式
隐私合规：采用加盐哈希和域名重映射匿名化处理
结构化格式：JSON Lines格式，附带模式文档
许可协议：Apache 2.0开源许可，允许商业使用

追踪场景

To-C场景（类ChatGPT服务）
- 数据文件：qwen_traceA_blksz_16.jsonl
To-B场景（API调用任务自动化）
- 数据文件：qwen_traceB_blksz_16.jsonl

数据规格

每条记录包含字段：
- chat_id：随机聊天标识符
- parent_chat_id：根请求为-1
- timestamp：请求到达时间（秒）
- input_length：输入token数量
- output_length：输出token数量
- type：请求类型（text/search/image/file）
- turn：对话轮次编号
- hash_ids：加盐SipHash块（每块16个token）

匿名化处理

Token块哈希：16-token分组+SipHash-2-4加盐哈希
域名重映射：哈希值映射为连续整数
ID随机化：聊天ID替换为连续整数
时间匿名化：时间戳归一化为相对值

隐私与合规

无PII：采用不可逆加密函数处理所有内容
不可关联：无跨会话或用户设备关联
符合GDPR/CCPA：满足主要法规的匿名数据标准

许可协议

Apache License 2.0
允许商业使用和修改
要求保留衍生作品中的许可声明

引用方式

bibtex @inproceedings {kvcache, title={KVCache Cache in the Wild: Characterizing and Optimizing KVCache Cache at a Large Cloud Provider}, author={Wang, Jiahao and Han, Jinbo and Wei, Xingda and Shen, Sijie and Zhang, Dingyan and Fang, Chenguang and Chen, Rong and Yu, Wenyuan and Chen, Haibo}, booktitle = {2025 USENIX Annual Technical Conference (USENIX ATC 25)}, year = {2025}, url = {https://www.usenix.org/conference/atc25/presentation/wang-jiahao}, publisher = {USENIX Association}, month = jul, }

搜集汇总

数据集介绍

构建方式

Qwen-Bailian匿名数据集基于阿里云百炼平台的实际服务流量构建，通过系统化采集两小时内的请求轨迹形成原始数据。采用分层匿名化处理流程：首先将文本令牌分块并进行加盐哈希处理，随后对哈希域进行重映射以消除内容关联性，同时替换会话ID为随机序列并归一化时间戳，确保数据完全符合GDPR/CCPA隐私保护标准。数据集以JSON Lines格式存储，完整保留了生产环境中的请求时序分布、输入输出令牌长度等关键工作负载特征。

特点

该数据集具有典型的生产环境代表性与严谨的隐私保护设计。其核心价值在于真实再现了大型语言模型服务场景下的两类典型流量模式：面向消费者的类ChatGPT对话服务（Trace A）和面向企业的API任务自动化流程（Trace B）。每条记录包含会话结构、请求类型构成等16个维度的元数据，通过密码学哈希处理既保留了统计分析所需的模式特征，又彻底切断了与原始内容的可追溯性。数据集采用Apache 2.0许可协议，为研究者提供了合规的商业使用自由度。

使用方法

研究者可通过解析JSON Lines文件获取标准化的工作负载数据，每条记录包含随机化的会话ID、归一化时间戳及哈希处理的令牌块序列。典型应用场景包括分析请求到达的时间分布规律、研究不同会话深度的令牌消耗模式，或验证KV缓存优化算法的实际效果。数据集特别适用于构建LLM服务系统的性能评估基准，通过对比Trace A/B的差异化特征，可针对性优化面向不同用户群体的服务架构设计。使用时需注意哈希令牌块已失去语义信息，仅适用于系统级行为分析而非内容研究。

背景与挑战

背景概述

Qwen-Bailian匿名数据集由阿里云百炼平台于2024年发布，旨在为大型语言模型（LLM）服务系统的设计与优化提供真实场景下的基准测试数据。该数据集记录了单Qwen模型服务实例两小时的匿名化KVCache请求轨迹，由王嘉浩等研究人员在USENIX ATC'25会议论文中首次系统阐述其科学价值。其核心研究问题聚焦于云原生环境下LLM服务的动态负载特征分析，包括请求时空分布、输入输出令牌长度、会话结构等关键维度，为优化KVCache缓存机制提供了实证研究基础。作为首个公开的生成式AI服务生产级轨迹数据集，其多模态请求类型（文本/搜索/图像/文件）的覆盖特性对提升服务系统的资源调度效率具有里程碑意义。

当前挑战

在解决LLM服务系统性能优化问题时，该数据集需应对请求动态性带来的三大挑战：非均匀时间分布导致的突发流量处理、输入输出令牌长度差异引发的内存压力波动，以及多轮会话场景下的缓存局部性优化。数据构建过程中，研究团队采用分组盐值哈希与域重映射技术实现隐私保护，但同步面临轨迹特征保真度与匿名化强度的平衡难题。特别是16令牌分块哈希策略虽满足GDPR合规要求，却使得原始语义关联信息不可复原，为基于内容感知的缓存预研带来限制。此外，生产环境中复杂的API调用链与混合请求类型（如To-C与To-B场景并存），也增加了负载模式分析的维度复杂性。

常用场景

经典使用场景

在大型语言模型服务系统的优化研究中，Qwen-Bailian Anonymous Dataset为研究者提供了真实场景下的请求轨迹数据。该数据集特别适用于分析KVCache缓存设计的性能瓶颈，通过捕捉请求的时间分布、输入输出令牌长度等关键特征，帮助研究者模拟和验证不同的缓存策略。其匿名化的会话结构和聊天轮次模式，使得在保护用户隐私的同时，能够深入探究模型服务的交互特性。

衍生相关工作

基于该数据集，研究者已衍生出多项经典工作，如《KVCache Cache in the Wild》等论文，深入探讨了大型云服务提供商环境下的缓存优化问题。这些工作不仅验证了数据集的科学价值，还进一步推动了语言模型服务系统在工业界的应用与发展，为后续研究奠定了坚实基础。

数据集最近研究