DRAGON (Dynamic RAG Benchmark On News)
收藏arXiv2025-07-08 更新2025-07-10 收录
下载链接:
https://github.com/RussianNLP/DRAGON
下载链接
链接失效反馈官方服务:
资源简介:
DRAGON数据集是一个动态基准,旨在评估俄语中检索增强生成(RAG)系统的性能。该数据集基于定期更新的俄语新闻和公共文档语料库构建,能够捕捉现实世界信息源的动态变化。DRAGON数据集支持对RAG系统的检索器和生成器组件进行全面的评估,并且提供了一套完整的评估框架,包括自动问题生成流程、评估脚本等,有助于促进社区参与和模型比较。
The DRAGON dataset is a dynamic benchmark designed to evaluate the performance of retrieval-augmented generation (RAG) systems in Russian. Built upon a periodically updated corpus of Russian news and public documents, this dataset captures the dynamic shifts of real-world information sources. The DRAGON dataset enables comprehensive evaluation of both the retriever and generator components of RAG systems, and provides a complete evaluation framework including automatic question generation workflows, evaluation scripts, and more, which facilitates community engagement and model comparison.
提供机构:
SberAI, ITMO, MISIS, HSE, MWS AI
创建时间:
2025-07-08
原始信息汇总
Dynamic RAG On News benchmark (DRAGON) 数据集概述
数据集简介
- 数据集名称:Dynamic RAG On News benchmark (DRAGON)
- 用途:评估检索增强生成(RAG)系统在动态演变的新闻领域中的表现
架构特点
- 模块化设计
- 自动化流程
- 可重复性
- 针对RAG评估的核心挑战
客户端库功能
-
加载数据集
- 通过
rag_bench.data模块从HuggingFace获取文本和问题数据集 - 确保数据集版本一致性
- 通过
-
构建RAG管道
- 提供参考实现
- 初始化检索器(如ChromaDB与MMR搜索)
- 初始化生成链(使用检索器、语言模型和可选提示)
-
生成结果
- 使用配置的管道处理数据集中的问题
-
评估性能
- 计算检索指标(命中率、MRR)
- 计算生成指标(ROUGE分数、精确匹配、子字符串匹配)
关键模块
rag_bench.data:数据集加载rag_bench.baseline:RAG管道构建与执行rag_bench.evaluator:管道输出评估rag_bench.constants:存储数据集仓库IDrag_bench.helper:实用功能
QA数据集生成流程
-
知识图谱提取阶段
- 从文本中提取事实信息
- 以知识图谱形式保存最新和最具体的事实
-
问题生成阶段
- 采样特定结构的子图
- 使用LLM生成问题-答案对
搜集汇总
数据集介绍

构建方式
DRAGON数据集构建于动态更新的俄语新闻语料库之上,采用模块化流水线设计实现自动化知识提取与问题生成。其核心架构包含知识图谱构建与问题生成两大阶段:首先利用LLaMa-3模型从新闻文本中提取三元组候选,通过Wikidata实体对齐和向量化实现知识归一化,筛选未收录于开放知识库的新颖事实构建动态知识图谱;随后基于四类问题模板(简单型、集合型、多跳型、条件型)从子图中采样,采用大语言模型生成语境相关的问题-答案对,并经过语法校验、命名实体匹配、子图一致性验证及POLLUX模型评分等多层过滤机制,确保数据质量与答案唯一性。数据集采用语义化版本控制,通过Hugging Face平台定期更新,同时提供沙盒数据集支持本地验证。
特点
作为首个俄语动态RAG评估基准,DRAGON具有三大核心特征:时序动态性体现在其基于每日爬取的新闻源实现知识库持续更新,有效模拟现实场景中的信息演化;评估全面性通过分离式检索器-生成器评估框架实现,支持命中率、NDCG等检索指标与ROUGE-L、人工评判分数等生成指标的多维度测量;语言特异性表现为针对俄语设计的知识归一化流程和POLLUX评判模型,其中问题生成模块融合了俄语Wikidata子图与本地实体向量库,确保文化语境适配性。数据集特别设计四类渐进式问题类型,从单事实检索到多文档推理,系统检验RAG系统的语义理解与逻辑推理能力。
使用方法
使用者可通过PyPI安装的rag_bench客户端库接入DRAGON评估体系,标准流程包含三个阶段:数据获取阶段动态解析Hugging Face最新版本数据集,加载经脱敏处理的公共文本和问题集;系统评估阶段支持自定义检索模型(如Qwen3Embedding)与生成模型(如Llama-3)的任意组合,通过标准JSON格式提交检索ID列表和生成答案;结果验证阶段可选择本地沙盒评估或提交至加密验证门户,后者通过Flask-Vue架构的评审系统对接私有映射库进行精准指标计算。评估结果将自动同步至公开排行榜,支持按数据集版本筛选或聚合显示近期表现。为保障可复现性,建议研究者在论文中明确标注所使用的数据集版本号(如1.11.0)。
背景与挑战
背景概述
DRAGON(Dynamic RAG Benchmark On News)是由SberAI、ITMO等机构的研究团队于2025年提出的首个针对俄语的动态检索增强生成(RAG)系统评测基准。该基准以实时更新的俄罗斯新闻语料为基础,旨在解决当前非英语RAG评估资源匮乏且静态化的核心问题。通过构建知识图谱自动生成四类问题(简单型、集合型、多跳型和条件型),DRAGON创新性地实现了对检索器与生成器的端到端动态评估,其开源框架和持续更新的排行榜为俄语自然语言处理领域提供了标准化评测工具,推动了多语言RAG系统在时效敏感场景中的应用研究。
当前挑战
DRAGON面临双重技术挑战:在领域问题层面,需解决动态新闻环境下信息时效性衰减、多跳推理中语义连贯性保持、以及俄语复杂形态变化对检索精度的影响等核心难题;在构建过程中,遭遇新闻数据实时爬取与去冗余处理、基于知识图谱的自动化问题生成质量控制、以及文化特定表达对LLM-as-Judge评估效度的干扰等工程挑战。此外,基准需平衡评估指标的表面匹配(如ROUGE-L)与深层语义一致性之间的张力,这对设计兼顾自动化评估效率与人工评判可靠性的混合评估体系提出了更高要求。
常用场景
经典使用场景
在动态新闻语料库环境下,DRAGON数据集为俄语检索增强生成(RAG)系统提供了标准化评估框架。其核心应用场景聚焦于模拟实时新闻更新的知识库动态性,通过自动化问题生成管道构建四类问题(简单、集合、多跳、条件),系统化检验检索模块对增量文本的捕捉能力与生成模块的时事实性。该设计尤其适用于评估模型在新闻领域处理突发事件的敏捷性,例如政治事件跟踪或经济指标解读,其中每日爬取的新闻文档与公共政策文件构成持续演化的知识基底。
衍生相关工作
DRAGON的架构启发了后续多语言动态基准的开发,如扩展乌克兰语的DRAKON基准采用类似知识图谱验证策略。其问题分类体系被CRAGv2基准吸收为多跳评估标准,而LLM-as-Judge评估协议经POLLUX项目优化后成为俄语生成质量检测的通用方案。在技术层面,该数据集提供的增量更新机制为TIMELM等时态语言模型提供了数据预处理范式。
数据集最近研究
最新研究方向
在动态检索增强生成(RAG)系统评估领域,DRAGON数据集的推出填补了俄语环境下动态知识基准测试的空白。该数据集通过实时更新的新闻语料库,构建了涵盖检索器与生成器的端到端评估框架,其创新性体现在基于知识图谱的自动化问题生成技术,支持简单、集合、多跳和条件四种问题类型,有效模拟真实场景下的信息动态性。当前研究热点聚焦于多语言扩展、时效性知识评估以及基于LLM-as-Judge的细粒度质量评估体系,这些方向对于提升跨语言RAG系统的事实性和适应性具有重要意义。该数据集的公开评估框架和动态排行榜机制,为学术界提供了可复现的研究平台,推动了多语言环境下动态知识集成系统的标准化发展。
相关研究论文
- 1DRAGON: Dynamic RAG Benchmark On NewsSberAI, ITMO, MISIS, HSE, MWS AI · 2025年
以上内容由遇见数据集搜集并总结生成



