five

vania-janet/mt-rag-benchmark-data

收藏
Hugging Face2026-03-03 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/vania-janet/mt-rag-benchmark-data
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - text-retrieval language: - en tags: - retrieval - conversational-search - RAG - benchmark - mt-rag - faiss - bm25 - splade - dense-retrieval - hybrid-retrieval pretty_name: MT-RAG Benchmark — Task A Retrieval (Indices, Data & Experiments) size_categories: - 1B<n<10B --- # MT-RAG Benchmark — Task A Retrieval Artefactos completos del sistema de recuperación desarrollado para el benchmark **MT-RAG** (Multi-Turn Retrieval-Augmented Generation), Task A. Incluye índices precomputados, corpora procesados, consultas reescritas y resultados de todos los experimentos. --- ## Contenido del repositorio ``` indices/ ← Índices de recuperación precomputados {dataset}/ Datasets: clapnq · cloud · fiqa · govt bge/ FAISS (BGE-base-1.5) bge-m3/ FAISS (BGE-M3) bm25/ BM25 serializado (.pkl) cohere/ FAISS (Cohere embed-english-v3) splade/ SPLADE matricial (.npz) voyage/ FAISS (Voyage-large-2) data/ passage_level_processed/ ← Corpora en formato passage jsonl (~428 MB) {clapnq|cloud|fiqa|govt}/ corpus.jsonl retrieval_tasks/ ← Queries, qrels y tasks por dataset (~2.8 MB) {dataset}/ *_tasks.jsonl *_questions.jsonl *_rewrite.jsonl *_lastturn.jsonl qrels/dev.tsv rewrites/ ← Versiones de query rewriting cohere_v1/ Command-R rewrite (v1) cohere_v2/ Command-R rewrite (v2 / v4) cohere_v3/ Command-R rewrite (v3 / v5) ← versión final enviada cohere_v3_alt/ Copia alternativa de cohere_v3 own_improved/ Rewrite propio mejorado own_local/ Rewrite propio (modelo local) own_replica/ Rewrite propio réplica hyde/ HyDE (Hypothetical Document Embeddings) multi/ Multi-query submissions/ ← Resultados de retrieval por experimento (~1.9 GB) baselines_rewrite/ Baselines con rewrite (BGE-1.5, BGE-M3, Voyage, SPLADE, BM25) baselines_fullhist/ Baselines con historial completo baselines_replication/ Réplica de baselines originales hybrid_*/ Experimentos hybrid SPLADE + dense (múltiples variantes) rerank_*/ Experimentos con reranking (BGE cross-encoder, Cohere) ablation_*/ Ablaciones (fusión, top-k, RRF-k, profundidad rerank, etc.) statistical_tests/ ← Pruebas estadísticas completas results/ statistical_report.json Reporte estadístico conciso statistical_validation_report.json Validación completa con Bootstrap + Wilcoxon statistical_summary_for_paper.txt Resumen para publicación (baselines y hybrid) ablation_statistical_tests.json Tests estadísticos de ablaciones (137 KB) ablation_statistical_summary.txt Resumen de ablaciones per_query_scores.jsonl Scores por query (experimentos principales) per_query_scores_all_experiments.jsonl Scores por query (todos los experimentos) per_query_scores_ablations.jsonl Scores por query (ablaciones) production_report.json Reporte de producción final thesis_analyses_report.json Análisis para tesis error_analysis.json / error_examples.md Análisis de errores cualitativos scripts/ run_ablation_statistical_tests.py Script que genera ablation_statistical_*.json legacy_statistical_validation.py Script que genera statistical_validation_report.json run_all_analyses.py Orquestador de todos los análisis``` --- ## Datasets utilizados | Dataset | Dominio | # Conversaciones | # Pasajes | |----------|--------------------|-----------------|-----------| | CLAPNQ | Wikipedia (QA) | ~1 500 | ~500 000 | | Cloud | Documentación tech | ~1 200 | ~60 000 | | FiQA | Finanzas | ~1 200 | ~57 000 | | Govt | Gobierno (FDA/EPA) | ~1 200 | ~90 000 | --- ## Modelos de recuperación | Tipo | Modelo | Clave en `indices/` | |--------------|--------------------------------------------|---------------------| | Denso | BAAI/bge-base-en-v1.5 | `bge` | | Denso | BAAI/bge-m3 | `bge-m3` | | Denso | Cohere embed-english-v3.0 | `cohere` | | Denso | voyage-large-2 | `voyage` | | Escaso | naver/splade-v3 | `splade` | | Léxico | BM25 (rank-bm25) | `bm25` | --- ## Pruebas estadísticas (`statistical_tests/`) Validación estadística completa de los experimentos **0-baselines** y **02-hybrid**, más ablaciones. ### Métodos aplicados | Método | Propósito | |--------|-----------| | **Bootstrap CI** (10 000 iters, seed=42) | Intervalos de confianza 95% sobre nDCG@5 | | **Wilcoxon signed-rank** (no paramétrico) | Tests pareados (normalidad rechazada por Shapiro-Wilk en 100% de casos, p < 1e-8) | | **Holm-Bonferroni** (FWER) | Corrección por multiplicidad en todos los conjuntos de tests | | **Cohen's d** | Tamaño del efecto (negligible < 0.2, small < 0.5, medium < 0.8, large ≥ 0.8) | | **Kendall τ** | Concordancia cross-domain de rankings | ### Resultados principales | Hipótesis | Tests | Sobreviven Holm | Conclusión | |-----------|-------|-----------------|------------| | H1: Híbrido > individual | 40 | **32/40** | ✅ Soportada | | Comparaciones de rewrite | 28 | 0/28 | ❌ Efectos pequeños (\|d\| < 0.21) | | Degradación por turno | 24 | 2/24 | Parcial | | Concordancia cross-domain | 6 | 1/6 | Parcial | La fusión híbrida supera significativamente a los componentes individuales en 32 de 40 comparaciones. Las diferencias entre estrategias de rewrite son reales pero no alcanzan significancia estadística tras corrección por multiplicidad. --- ## Experimentos incluidos en `data/submissions/` ### Baselines (`0-baselines`) - `A0_*` — Historial completo sin rewrite (BM25, SPLADE) - `A1_*` — Historial completo sin rewrite (BGE-M3, Voyage) - `A2_*` — Con rewrite Cohere v3 (BGE-1.5, BGE-M3, Voyage, SPLADE, BM25) - `replication_*` — Réplicas de baselines originales MT-RAG ### Hybrid (`02-hybrid`) - `hybrid_splade_bge15_*` — SPLADE + BGE-1.5 (norewrite, rewrite, own, v2, v3) - `hybrid_splade_voyage_*` — SPLADE + Voyage (norewrite, rewrite, own, v2, v3, hyde, multi) ### Rerank (`03-rerank`) - BGE cross-encoder y Cohere rerank sobre hybrid SPLADE+BGE/Voyage ### Ablaciones (`06-12`) - Fusión (RRF vs linear, α) - Top-k de recuperación (100, 200, 500) - RRF k (1, 20, 40, 100) - Profundidad de reranking (50, 100, 200) - Modo de query (lastturn, fullhist, fullctx) - Componentes individuales - Variantes de rewrite --- ## Métricas Cada resultado de experimento incluye `retrieval_results.jsonl` y `metrics.json` con: - **MRR@10**, **NDCG@10** (métricas principales MT-RAG) - **Recall@100**, **MAP@10** --- ## Citar Si usas estos artefactos, por favor cita el trabajo de tesis asociado y el benchmark MT-RAG: ```bibtex @dataset{janet2025mtrag, title = {{MT-RAG} Benchmark Task A — Retrieval Artifacts}, author = {Vania Janet}, year = {2025}, url = {https://huggingface.co/datasets/vania-janet/mt-rag-benchmark-data}, license = {CC-BY-4.0} } ```

license: CC-BY-4.0 task_categories: - 文本检索(text-retrieval) language: - 英语(en) tags: - 检索(retrieval) - 会话式搜索(conversational-search) - 检索增强生成(Retrieval-Augmented Generation, RAG) - 基准测试(benchmark) - 多轮检索增强生成(mt-rag,MT-RAG) - FAISS - BM25 - SPLADE - 稠密检索(dense-retrieval) - 混合检索(hybrid-retrieval) pretty_name: MT-RAG基准测试 — 任务A检索(索引、数据与实验) size_categories: - 10亿 < 样本规模 < 100亿 # MT-RAG基准测试 — 任务A检索 本数据集包含为**MT-RAG(多轮检索增强生成,Multi-Turn Retrieval-Augmented Generation)**基准测试任务A开发的完整检索系统工件,涵盖预计算索引、处理后的语料库、重写后的查询以及所有实验的结果。 ## 仓库内容 indices/ ← 预计算检索索引 {dataset}/ 支持数据集:clapnq、cloud、fiqa、govt bge/ FAISS(BGE-base-1.5)索引 bge-m3/ FAISS(BGE-M3)索引 bm25/ 序列化BM25索引(.pkl格式) cohere/ FAISS(Cohere embed-english-v3)索引 splade/ SPLADE矩阵文件(.npz格式) voyage/ FAISS(Voyage-large-2)索引 data/ passage_level_processed/ ← 段落级处理后语料库,格式为jsonl(约428 MB) {clapnq|cloud|fiqa|govt}/ corpus.jsonl retrieval_tasks/ ← 各数据集的查询、qrels与任务文件(约2.8 MB) {dataset}/ *_tasks.jsonl *_questions.jsonl *_rewrite.jsonl *_lastturn.jsonl qrels/dev.tsv rewrites/ ← 查询重写版本集 cohere_v1/ Command-R重写(v1) cohere_v2/ Command-R重写(v2 / v4) cohere_v3/ Command-R重写(v3 / v5) ← 最终提交版本 cohere_v3_alt/ cohere_v3的备用副本 own_improved/ 优化后的自主重写结果 own_local/ 本地模型自主重写结果 own_replica/ 自主重写复现结果 hyde/ HyDE(假设文档嵌入,Hypothetical Document Embeddings)重写 multi/ 多查询重写结果 submissions/ ← 各实验检索结果(约1.9 GB) baselines_rewrite/ 带查询重写的基线模型(BGE-1.5、BGE-M3、Voyage、SPLADE、BM25) baselines_fullhist/ 完整历史上下文基线模型 baselines_replication/ 原始基线模型复现结果 hybrid_*/ SPLADE与稠密检索混合的多变体实验 rerank_*/ 带重排序的实验(BGE交叉编码器、Cohere重排序) ablation_*/ 消融实验(融合策略、top-k、RRF-k、重排序深度等) statistical_tests/ ← 完整统计检验结果集 results/ statistical_report.json 简洁统计报告 statistical_validation_report.json 完整Bootstrap与Wilcoxon验证报告 statistical_summary_for_paper.txt 论文用统计摘要(基线与混合模型结果) ablation_statistical_tests.json 消融实验统计检验文件(137 KB) ablation_statistical_summary.txt 消融实验结果摘要 per_query_scores.jsonl 各查询得分(主实验) per_query_scores_all_experiments.jsonl 所有实验的各查询得分 per_query_scores_ablations.jsonl 消融实验的各查询得分 production_report.json 最终生产报告 thesis_analyses_report.json 学位论文分析报告 error_analysis.json / error_examples.md 定性错误分析报告 scripts/ run_ablation_statistical_tests.py 生成ablation_statistical_*.json的脚本 legacy_statistical_validation.py 生成statistical_validation_report.json的脚本 run_all_analyses.py 全分析流程编排脚本 ## 所用数据集 | 数据集名称 | 领域 | 对话数量 | 段落数量 | |------------|---------------------|----------|------------| | CLAPNQ | 维基百科(问答) | ~1500 | ~500000 | | Cloud | 科技文档 | ~1200 | ~60000 | | FiQA | 金融领域 | ~1200 | ~57000 | | Govt | 政府领域(FDA/EPA) | ~1200 | ~90000 | ## 检索模型 | 模型类型 | 模型名称 | `indices/` 中对应键 | |----------------|--------------------------------------------|---------------------| | 稠密检索 | BAAI/bge-base-en-v1.5 | `bge` | | 稠密检索 | BAAI/bge-m3 | `bge-m3` | | 稠密检索 | Cohere embed-english-v3.0 | `cohere` | | 稠密检索 | voyage-large-2 | `voyage` | | 稀疏检索 | naver/splade-v3 | `splade` | | 词汇检索 | BM25(rank-bm25) | `bm25` | ## 统计检验(`statistical_tests/`) 本目录包含对`0-baselines`、`02-hybrid`实验及消融实验的完整统计验证。 ### 所用检验方法 | 检验方法 | 用途 | |-----------------------------------|----------------------------------------------------------------------| | Bootstrap置信区间(10000次迭代,随机种子=42) | 基于nDCG@5的95%置信区间估计 | | Wilcoxon符号秩检验(非参数检验) | 配对样本显著性检验(Shapiro-Wilk检验显示所有样本均不满足正态性,p < 1e-8) | | Holm-Bonferroni校正(FWER) | 多检验多重性校正 | | Cohen's d效应量 | 效应大小评估(可忽略 < 0.2,小效应 < 0.5,中等效应 < 0.8,大效应 ≥ 0.8) | | Kendall τ秩相关系数 | 跨域排名一致性评估 | ### 主要检验结果 | 研究假设 | 检验次数 | 通过Holm校正的检验数 | 结论 | |------------------------------|----------|----------------------|--------------------| | H1:混合检索模型优于单一组件 | 40 | 32/40 | ✅ 得到支持 | | 查询重写策略间的比较 | 28 | 0/28 | ❌ 效应量极小(|d| < 0.21) | | 对话轮次带来的性能退化效应 | 24 | 2/24 | 部分支持 | | 跨域排名一致性 | 6 | 1/6 | 部分支持 | 混合检索融合策略在40组对比中有32组显著优于单一组件模型。不同查询重写策略间的差异虽真实存在,但经多重性校正后未达到统计显著性水平。 ## `data/submissions/` 中包含的实验 ### 基线模型实验(`0-baselines`) - `A0_*` — 无查询重写的完整历史上下文实验(BM25、SPLADE) - `A1_*` — 无查询重写的完整历史上下文实验(BGE-M3、Voyage) - `A2_*` — 使用Cohere v3查询重写的实验(BGE-1.5、BGE-M3、Voyage、SPLADE、BM25) - `replication_*` — 原始MT-RAG基线模型复现结果 ### 混合检索实验(`02-hybrid`) - `hybrid_splade_bge15_*` — SPLADE + BGE-1.5混合检索(无重写、重写、自主重写、v2、v3变体) - `hybrid_splade_voyage_*` — SPLADE + Voyage混合检索(无重写、重写、自主重写、v2、v3、HyDE、多查询变体) ### 重排序实验(`03-rerank`) - 基于SPLADE+BGE/Voyage混合检索结果的BGE交叉编码器与Cohere重排序实验 ### 消融实验(`06-12`) - 融合策略对比(RRF vs 线性融合、α参数调整) - 检索top-k阈值调整(100、200、500) - RRF k参数调整(1、20、40、100) - 重排序深度调整(50、100、200) - 查询输入模式(单轮最后turn、完整历史上下文、完整上下文) - 单一组件检索模型对比实验 - 查询重写策略变体对比 ## 评价指标 每个实验结果包含`retrieval_results.jsonl`与`metrics.json`文件,其中包含以下评价指标: - **MRR@10**、**NDCG@10**(MT-RAG核心评价指标) - **Recall@100**、**MAP@10** ## 引用说明 若使用本数据集工件,请引用关联的学位论文与MT-RAG基准测试: bibtex @dataset{janet2025mtrag, title = {{MT-RAG} Benchmark Task A — Retrieval Artifacts}, author = {Vania Janet}, year = {2025}, url = {https://huggingface.co/datasets/vania-janet/mt-rag-benchmark-data}, license = {CC-BY-4.0} }
提供机构:
vania-janet
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作