five

RAGPulse

收藏
github2025-11-18 更新2025-11-19 收录
下载链接:
https://github.com/flashserve/RAGPulse
下载链接
链接失效反馈
官方服务:
资源简介:
RAGPulse是一个从大学范围问答服务场景收集的真实世界RAG工作负载追踪数据集。该系统自2024年4月以来已为超过40,000名学生和教职员工提供服务,提供智能政策问答服务。该追踪包含总共7,106条记录条目,从一周的问答服务中采样得到。数据集包含6个主要文件:追踪关键信息、系统提示内容、向量数据库段落、用户聊天历史、用户输入问题和在线检索内容。

RAGPulse is a real-world RAG workload tracing dataset collected from university-scale question answering (QA) service scenarios. This system has served over 40,000 students, faculty and staff since April 2024, providing intelligent policy-focused QA services. The dataset contains 7,106 record entries sampled from one week of QA service interactions. It includes six core files: key tracing information, system prompt content, vector database passages, user chat histories, user input queries, and online retrieved content.
创建时间:
2025-11-07
原始信息汇总

RAGPulse 数据集概述

数据集基本信息

  • 数据集名称:RAGPulse
  • 数据来源:大学范围的问答服务场景
  • 服务时间:自2024年4月开始服务
  • 服务规模:超过40,000名学生和教职工
  • 记录数量:7,106条记录条目
  • 采样周期:一周的问答服务数据

数据文件组成

数据集包含6个主要文件:

核心数据文件

  • 0_trace.jsonl:包含跟踪的关键信息,共7,106行
  • 1_sys_prompt.jsonl:系统提示内容对应的哈希ID和令牌长度,共6,898行
  • 2_passages.jsonl:向量数据库对应的哈希ID,包含8,302行段落内容
  • 3_history.jsonl:用户聊天历史内容对应的哈希ID,共4,910行
  • 4_user_input.jsonl:用户输入问题对应的哈希ID,共6,292个区块哈希ID
  • 5_web_search.jsonl:在线检索内容对应的哈希ID

数据结构

跟踪记录示例结构

json { "timestamp": "27", "input_length": 3861, "output_length": 127, "hash_ids": { "sys_prompt": [8325, 8326, 11575], "passages_ids": [6123, 7239, 6124, 1167, 7250, 5448], "history": [15215], "web_search": [20319, 20320], "user_input": [23648] }, "session_id": "1758081660427-xa8rbsd2uco1" }

字段说明

  • timestamp:请求提交时间(秒),从跟踪开始时间(12:00:00)计算
  • input_length:请求的总令牌长度
  • output_length:输出的总令牌长度
  • hash_ids:请求输入各组件的哈希标识符集合
  • session_id:请求所属的会话标识符

数据特征

系统吞吐量

  • 展示一周内用户活动模式的分布
  • 反映系统负载的时间分布特征

输入组件比例

  • 系统提示长度相对固定
  • 比例变化主要由其他组件长度变化驱动
  • 展示不同输入长度下各组件的占比分布

独特特征

  • 不同语料区块的使用频率差异显著
  • 重叠比率表现出明显差异
  • 反映RAG跟踪的部分独特特性

未来计划

  • 将添加对话日志,包括组件执行时间、附加文件内容、内部LLM请求/响应日志等
  • 基于代理工作流的跟踪正在开发中

引用信息

bibtex @misc{RAGPulse, title={RAGPulse: An Open-Source RAG Workload Trace to Optimize RAG Serving Systems}, author={Zhengchao Wang and Yitao Hu and Jianing Ye and Zhuxuan Chang and Jiazheng Yu and Youpeng Deng and Keqiu Li}, year={2025}, eprint={2511.12979}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2511.12979}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在智能问答系统日益普及的背景下,RAGPulse数据集通过采集真实校园问答服务场景中的工作负载痕迹构建而成。该数据集源自一所大学范围内为四万余名师生提供政策咨询服务的智能平台,自2024年4月持续运行期间,系统以周为单位采样生成7106条结构化记录。所有文本内容均经过哈希化处理以保护用户隐私,完整保留了包括时间戳、会话标识、输入输出长度等关键元数据,并通过六个独立文件分别存储系统提示、文档段落、对话历史等组件的哈希映射关系。
特点
作为专为检索增强生成系统设计的基准数据集,RAGPulse呈现出多阶段工作流的独特特征。其核心价值体现在真实场景下的复杂交互模式:系统提示长度相对固定,而检索文档、网络搜索结果等可变组件构成动态输入比例。数据分布展现出明显的用户活动周期规律,不同知识片段的调用频率与重叠率存在显著差异,这种非均匀性为研究检索缓存策略提供了理想样本。特别值得注意的是会话级关联特性,连续查询间存在的语义相关性为优化键值缓存复用机制创造了条件。
使用方法
针对RAG系统优化研究的需求,该数据集提供了标准化的实验流程。使用者需先配置Python3.12环境并安装vllm等依赖库,通过修改main.py中的路径参数指向数据目录。执行阶段支持实时工作负载重放,系统将自动解析哈希标识对应的文本组件,生成包含输入组装、向量检索、文本生成的完整流水线。运行过程会持续记录各组件执行时间,最终在指定目录输出包含首令牌延迟、输出吞吐量等关键指标的量化分析报告,为评估检索与生成模块的协同效率提供数据支撑。
背景与挑战
背景概述
RAGPulse数据集于2025年由研究团队发布,聚焦于真实场景中的检索增强生成(RAG)工作负载追踪。该数据集源自一所大学范围内的智能问答服务平台,自2024年4月起为超过四万师生提供政策咨询服务,核心研究问题在于揭示多阶段RAG流程中的动态交互机制。通过采集一周内的7106条服务记录,RAGPulse填补了现有LLM推理数据在复杂检索-生成耦合场景中的空白,为优化实时服务系统提供了关键实证基础。
当前挑战
RAGPulse致力于解决检索增强生成系统在真实部署中的性能优化难题,其核心挑战包括多级流水线中检索、重排序与生成阶段的延迟协同问题,以及知识库动态依赖导致的查询模式异构性。在构建过程中,团队需克服用户隐私保护与数据脱敏的技术障碍,通过哈希映射实现文本内容的安全替代;同时,跨会话语义关联性的捕捉要求精细的上下文依赖建模,这对追踪数据的完整性与时序一致性提出了极高要求。
常用场景
经典使用场景
在检索增强生成系统研究领域,RAGPulse数据集为优化多阶段服务架构提供了关键支撑。该数据集通过记录大学问答服务场景中7106条真实工作负载,完整捕捉了检索、重排序与生成阶段的交互特征。研究人员可基于此分析查询相似度对嵌入缓存命中率的影响,探索不同检索深度下的质量与成本权衡,并为动态批处理策略设计提供数据基础。
解决学术问题
该数据集有效解决了RAG系统研究中多阶段协同优化的理论难题。通过提供真实的跨请求上下文依赖关系,使研究者能够量化语义关联对KV缓存复用效率的影响。其记录的检索延迟与生成延迟的耦合特征,为建立端到端延迟分解模型提供了实证基础,填补了传统LLM推理轨迹无法捕捉知识依赖动态的空白。
衍生相关工作
该数据集已催生多项RAG服务系统的创新研究。基于其跨阶段关联特性,研究者开发了动态检索缓存机制以降低重复查询延迟;利用会话连续性特征,提出了语义感知的批处理调度算法;更有工作探索了嵌入模型选择与检索精度的量化关系,为轻量级RAG部署提供了理论依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作