RAG QA Logs & Corpus — Synthetic Multi-Table RAG Benchmark

github2025-12-25 更新2026-01-05 收录

下载链接：

https://github.com/tarekmasryo/rag-qa-logs-corpus-data

下载链接

链接失效反馈

官方服务：

资源简介：

一个生产风格、隐私安全的合成数据集，模拟了真实检索增强生成（RAG）系统的遥测数据，从语料库→块→检索列表→评估结果。该仓库提供了一个可连接、适合机器学习使用的多表基准，用于RAG质量分析、检索策略评估、风险与元建模、延迟与成本权衡以及仪表盘和教学材料。

A production-grade, privacy-preserving synthetic dataset that simulates telemetry data from real retrieval-augmented generation (RAG) systems, covering the full pipeline from corpus → chunks → retrieval lists to evaluation results. This repository provides an interoperable, machine learning-ready multi-table benchmark for RAG quality analysis, retrieval strategy evaluation, risk and meta-modeling, latency-cost tradeoff analysis, as well as dashboard development and teaching material creation.

创建时间：

2025-12-14

原始信息汇总

RAG QA Logs & Corpus — Synthetic Multi-Table RAG Benchmark 数据集概述

数据集简介

这是一个模拟真实检索增强生成（RAG）系统遥测数据的生产风格、隐私安全的合成数据集，涵盖了从语料库到分块、检索列表再到评估结果的完整流程。该数据集提供了一个可连接、适用于机器学习的多表基准。

核心特性

数据性质：所有记录均为完全合成，不包含任何真实用户、客户、患者或公司数据。
主要用途：适用于RAG质量分析、检索策略评估、风险与元建模、延迟与成本权衡分析，以及仪表板构建和教学材料制作。
核心标签：is_correct、hallucination_flag、faithfulness_label。
主要连接键：doc_id、chunk_id、example_id、run_id、scenario_id、query_id。
数据划分：包含 train、val、test 三个划分。
涵盖领域（12个）：support_faq、hr_policies、product_docs、developer_docs、policies、financial_reports、medical_guides、research_papers、customer_success、data_platform_docs、mlops_docs、marketing_analytics。
检索策略：dense、bm25、hybrid、dense_then_rerank、bm25_then_rerank。
任务类型：factoid、explanation、summarization、multi_hop、table_qa、temporal_reasoning、comparison、instruction_following。

数据集文件详情

数据集由6个CSV文件组成，总计 103,255 行数据。

文件	行数	列数	数据粒度
`rag_corpus_documents.csv`	658	19	语料库中每个文档一行
`rag_corpus_chunks.csv`	5,237	6	从文档派生的每个分块一行
`rag_retrieval_events.csv`	93,375	12	每个评估示例中检索到的每个分块一行（包含排名/分数/相关性）
`eval_runs.csv`	3,824	49	每个QA评估示例一行（包含质量、成本、延迟和配置信息）
`scenarios.csv`	62	13	每个场景模板/用例一行
`data_dictionary.csv`	99	5	所有表中每个列定义一行

数据表连接关系

文档 → 分块：rag_corpus_documents.doc_id = rag_corpus_chunks.doc_id
检索事件 → 分块：rag_retrieval_events.chunk_id = rag_corpus_chunks.chunk_id
评估运行 → 检索事件：eval_runs.example_id = rag_retrieval_events.example_id（run_id、scenario_id、query_id、split 也可用于一致性检查）
评估运行 → 场景：eval_runs.scenario_id = scenarios.scenario_id（以及 query_id）

数据字典说明

data_dictionary.csv 文件包含以下列：table_name、column_name、dtype、description、allowed_values。注意：table_name 可能使用逻辑名称（例如 rag_qa_eval_runs、rag_qa_scenarios），而实际文件名是 eval_runs.csv 和 scenarios.csv。

局限性

数据集是合成的，模拟生产遥测数据，但并非真实生产数据。
rag_corpus_chunks.chunk_text 中的文本可能比真实语料库更模板化/多样性较低。
合成遥测数据设计为真实，但无法覆盖生产系统中的所有边缘情况。
不适用于高风险临床、法律或财务决策。

许可与归属

许可证：CC BY 4.0（需要署名）
建议引用：“RAG QA Logs & Corpus — Synthetic Multi-Table RAG Benchmark” — Tarek Masryo

搜集汇总

数据集介绍

构建方式

在检索增强生成系统日益成为自然语言处理核心组件的背景下，该数据集通过程序化合成方法构建，旨在模拟真实生产环境中的遥测数据流。其构建过程始于文档语料库的生成，涵盖支持问答、人力资源政策、产品文档等十二个专业领域，随后将文档切分为语义连贯的文本块。通过模拟多种检索策略对每个查询进行知识检索，并生成包含质量评估、成本及延迟指标的完整评估轨迹，最终形成六个可关联的表格，共计超过十万条记录，确保了数据的隐私安全性与结构完整性。

特点

该数据集的核心特征在于其多表关联的基准测试架构与全面的合成遥测数据。数据集囊括了文档、文本块、检索事件、评估运行、场景模板及数据字典六个相互关联的表格，通过稳定的标识符实现无缝连接。其内容覆盖十二个不同领域与八种任务类型，并集成了密集检索、BM25、混合检索及重排序变体等多种检索策略的评估结果。每条记录均标注了准确性、忠实度及幻觉标志等关键质量指标，同时包含了令牌消耗、延迟时间和估算成本等系统性能元数据，为多维度的对比分析与模型研究提供了丰富信号。

使用方法

使用者可通过标准的数据处理流程加载并关联各CSV表格，利用Python的pandas库执行数据合并操作，从而重建从查询到检索再到评估的完整数据链路。典型分析路径包括比较不同检索策略在准确性、幻觉率及性能开销上的差异，或探究特定领域与任务类型下的失败模式。数据集支持构建预测模型，以根据检索证据和系统配置来预判回答的正确性或幻觉风险，亦可用于设计基于延迟与成本的智能路由策略，或评估系统在无答案情况下的弃权行为，为检索增强生成系统的研发与优化提供了实证基础。

背景与挑战

背景概述

在检索增强生成（RAG）系统日益成为自然语言处理领域核心技术的背景下，RAG QA Logs & Corpus — Synthetic Multi-Table RAG Benchmark数据集应运而生，旨在为RAG系统的评估与优化提供标准化基准。该数据集由研究人员Tarek Masryo创建，采用完全合成的方式模拟真实生产环境中的遥测数据，涵盖文档、分块、检索事件及评估结果等多表关联结构。其核心研究问题聚焦于如何系统性地衡量RAG模型在准确性、忠实度、幻觉控制等方面的性能，并深入分析不同检索策略（如稠密检索、BM25及混合方法）在多样化任务场景下的效能差异。该数据集通过集成12个领域和8类任务类型，为学术界与工业界提供了可扩展、隐私安全的实验平台，显著推动了RAG技术在质量分析、风险建模及系统优化方面的研究进展。

当前挑战

该数据集致力于解决RAG系统在复杂多跳推理、时序推理及表格问答等任务中面临的幻觉生成与忠实度不足等核心挑战。构建过程中，研究团队需克服合成数据与真实生产环境之间的分布差异，确保生成的查询、文档及遥测数据在保持高度逼真性的同时避免引入隐私风险。此外，设计多表关联架构时，需精确模拟检索事件与评估指标之间的动态交互，以支持对检索策略的细粒度比较与失效分析，这要求数据生成流程在语义一致性、任务多样性和系统配置可变性之间取得平衡。

常用场景

经典使用场景

在检索增强生成（RAG）系统的研究领域，该数据集为评估不同检索策略的性能提供了标准化基准。通过模拟真实RAG系统的完整工作流——从文档语料库到分块处理、检索事件记录再到质量评估结果，研究者能够系统性地分析密集检索、BM25、混合检索及重排序变体在多种任务类型（如事实问答、多跳推理、表格问答）下的表现差异。这一场景不仅支持跨策略的横向对比，还允许深入探究检索质量与召回率、平均倒数排名等指标的内在关联，为优化检索组件奠定了实证基础。

衍生相关工作

围绕该数据集，已衍生出多项聚焦于RAG系统优化与分析的经典研究。例如，基于检索证据与系统配置的元建模工作，尝试预测问答幻觉与错误率；针对混合检索策略的对比实验，深入探索了质量与效率的权衡关系；此外，结合延迟与成本指标的策略路由研究，为动态资源分配提供了方法论支持。这些工作共同推动了RAG系统在评估标准化、风险可控性及工程落地方面的学术积累与实践创新。

数据集最近研究