ragbench-ru

Hugging Face2025-10-22 更新2025-10-23 收录

下载链接：

https://huggingface.co/datasets/CMCenjoyer/ragbench-ru

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是从英文翻译成俄文的原始数据集。它包含多个数据集，每个数据集都有自己的配置名称、特征、分割和文件路径。这些数据集是为标记分类任务设计的，包括问题、文档、回复以及与回复相关的各种分数。数据集分为训练集、验证集和测试集，具有指定的示例数和字节大小。数据集在CC BY 4.0许可下发布。

创建时间：

2025-10-20

原始信息汇总

数据集概述

基本信息

数据集名称: ragbench-ru
语言: 俄语、英语
许可证: CC BY 4.0
任务类别: 令牌分类
规模: 10K<n<100K

数据集配置

covidqa

训练集: 1252个样本，16256670字节
验证集: 267个样本，3435506字节
测试集: 246个样本，3093096字节
总大小: 22785272字节
下载大小: 10206722字节

cuad

训练集: 749个样本，56809352字节
验证集: 269个样本，19457267字节
测试集: 305个样本，20944950字节
总大小: 97211569字节
下载大小: 30352930字节

delucionqa

训练集: 1458个样本，34504025字节
验证集: 182个样本，4017107字节
测试集: 184个样本，4385264字节
总大小: 42906396字节
下载大小: 10539417字节

expertqa

训练集: 1493个样本，44634986字节
验证集: 196个样本，6208484字节
测试集: 188个样本，6225187字节
总大小: 57068657字节
下载大小: 29115787字节

finqa

训练集: 12502个样本，259815398字节
验证集: 1766个样本，36161350字节
测试集: 2294个样本，46628875字节
总大小: 342605623字节
下载大小: 139235239字节

hagrid

训练集: 2892个样本，31013564字节
验证集: 322个样本，3335986字节
测试集: 1318个样本，14374245字节
总大小: 48723795字节
下载大小: 24288166字节

hotpotqa

训练集: 1883个样本，19666303字节
验证集: 424个样本，4385221字节
测试集: 390个样本，3976720字节
总大小: 28028244字节
下载大小: 15309672字节

特征结构

基础特征: id、question、documents、response、generation_model_name、annotating_model_name、dataset_name
句子级特征: documents_sentences、response_sentences、documents_sentences_ru
支持信息: sentence_support_information（包含explanation、fully_supported、response_sentence_key、supporting_sentence_keys）
评估指标: adherence_score、relevance_score、utilization_score、completeness_score等
多模型评估: trulens_groundedness、ragas_faithfulness、gpt3_adherence等
俄语翻译: question_ru、response_ru、documents_sentences_ru

数据来源

原始数据集: https://huggingface.co/datasets/galileo-ai/ragbench
性质: 从英语到俄语的翻译版本

搜集汇总

数据集介绍

构建方式

在检索增强生成技术蓬勃发展的背景下，ragbench-ru数据集通过系统化流程构建而成。该数据集整合了来自多个权威领域的问答数据，包括金融领域的FinQA、法律领域的CUAD以及医疗领域的COVIDQA等，每个子集均包含原始问题、参考文档和生成回答。构建过程中采用自动化与人工标注相结合的方式，对回答与文档之间的支持关系进行细粒度标注，并引入多维度评估指标确保数据质量。所有英文内容均经过专业翻译流程转化为俄语版本，形成完整的双语平行语料。

使用方法

在自然语言处理研究实践中，该数据集主要服务于检索增强生成系统的性能评估。研究人员可通过加载特定领域子集（如covidqa或finqa）进行端到端测试，利用预计算的评估指标快速对比模型表现。典型使用流程包括：解析问题-文档对生成回答，基于句子支持信息验证事实一致性，结合多维度评分体系进行综合分析。数据集提供的俄语版本特别适用于跨语言迁移学习研究，支持模型在俄语环境下的泛化能力验证。

背景与挑战

背景概述

在检索增强生成（RAG）系统快速发展的背景下，ragbench-ru数据集应运而生，旨在评估多语言环境下RAG模型的知识溯源与事实一致性能力。该数据集由研究团队基于原始英文版RAGBench进行俄语翻译构建，涵盖COVID-QA、CUAD、ExpertQA等七个专业领域的问答数据。其核心研究问题聚焦于跨语言场景中模型回答的忠实度与上下文相关性量化，通过集成Trulens、RAGAS等多种评估指标，为俄语RAG系统的可解释性研究提供了重要基准。

当前挑战

该数据集致力于解决俄语RAG系统中答案可信度验证的核心难题，具体包括模型生成内容与原文证据的细粒度对齐、跨语言语义一致性维护等挑战。构建过程中面临双重障碍：一是专业领域术语的精准翻译需保持技术文档的逻辑完整性，二是俄语语法结构与英文的显著差异导致句子级支持关系标注的复杂性。此外，多评估指标的统一标定与语言特有表达习惯的适配，进一步增加了数据质量控制的难度。

常用场景

经典使用场景

在检索增强生成技术领域，ragbench-ru数据集作为多语言评估基准，其经典应用体现在对俄语问答系统的事实准确性验证。该数据集通过整合COVID-19医疗咨询、金融分析等专业领域的双语问答对，系统评估生成模型在俄语语境下的文档检索与答案生成能力。其特有的句子级支持信息标注体系，为衡量模型响应与原始文档的语义一致性提供了细粒度评估框架。

解决学术问题

该数据集有效解决了跨语言检索增强生成系统中的三大核心问题：首先通过多维度评估指标（如忠实度、上下文相关性）量化模型的知识溯源能力，其次针对低资源语言场景下的语义对齐难题提供标准化测试方案，最后通过俄英双语平行语料填补了非英语RAG系统评估的数据空白。这种结构化评估范式显著推进了多语言生成模型的可解释性研究。

实际应用

在现实应用层面，ragbench-ru已成为俄语智能客服系统与专业领域知识引擎的核心测试基准。金融机构利用其财务问答模块验证自动化报告生成的准确性，医疗健康领域借助COVID-19子集优化疫情咨询机器人。该数据集支撑的评估体系正逐步融入企业级RAG系统开发流程，确保俄语生成内容在法律、医疗等高风险场景下的可靠性。

数据集最近研究