five

ragbench-ru

收藏
Hugging Face2025-10-22 更新2025-10-23 收录
下载链接:
https://huggingface.co/datasets/CMCenjoyer/ragbench-ru
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集是从英文翻译成俄文的原始数据集。它包含多个数据集,每个数据集都有自己的配置名称、特征、分割和文件路径。这些数据集是为标记分类任务设计的,包括问题、文档、回复以及与回复相关的各种分数。数据集分为训练集、验证集和测试集,具有指定的示例数和字节大小。数据集在CC BY 4.0许可下发布。
创建时间:
2025-10-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ragbench-ru
  • 语言: 俄语、英语
  • 许可证: CC BY 4.0
  • 任务类别: 令牌分类
  • 规模: 10K<n<100K

数据集配置

covidqa

  • 训练集: 1252个样本,16256670字节
  • 验证集: 267个样本,3435506字节
  • 测试集: 246个样本,3093096字节
  • 总大小: 22785272字节
  • 下载大小: 10206722字节

cuad

  • 训练集: 749个样本,56809352字节
  • 验证集: 269个样本,19457267字节
  • 测试集: 305个样本,20944950字节
  • 总大小: 97211569字节
  • 下载大小: 30352930字节

delucionqa

  • 训练集: 1458个样本,34504025字节
  • 验证集: 182个样本,4017107字节
  • 测试集: 184个样本,4385264字节
  • 总大小: 42906396字节
  • 下载大小: 10539417字节

expertqa

  • 训练集: 1493个样本,44634986字节
  • 验证集: 196个样本,6208484字节
  • 测试集: 188个样本,6225187字节
  • 总大小: 57068657字节
  • 下载大小: 29115787字节

finqa

  • 训练集: 12502个样本,259815398字节
  • 验证集: 1766个样本,36161350字节
  • 测试集: 2294个样本,46628875字节
  • 总大小: 342605623字节
  • 下载大小: 139235239字节

hagrid

  • 训练集: 2892个样本,31013564字节
  • 验证集: 322个样本,3335986字节
  • 测试集: 1318个样本,14374245字节
  • 总大小: 48723795字节
  • 下载大小: 24288166字节

hotpotqa

  • 训练集: 1883个样本,19666303字节
  • 验证集: 424个样本,4385221字节
  • 测试集: 390个样本,3976720字节
  • 总大小: 28028244字节
  • 下载大小: 15309672字节

特征结构

  • 基础特征: id、question、documents、response、generation_model_name、annotating_model_name、dataset_name
  • 句子级特征: documents_sentences、response_sentences、documents_sentences_ru
  • 支持信息: sentence_support_information(包含explanation、fully_supported、response_sentence_key、supporting_sentence_keys)
  • 评估指标: adherence_score、relevance_score、utilization_score、completeness_score等
  • 多模型评估: trulens_groundedness、ragas_faithfulness、gpt3_adherence等
  • 俄语翻译: question_ru、response_ru、documents_sentences_ru

数据来源

  • 原始数据集: https://huggingface.co/datasets/galileo-ai/ragbench
  • 性质: 从英语到俄语的翻译版本
搜集汇总
数据集介绍
main_image_url
构建方式
在检索增强生成技术蓬勃发展的背景下,ragbench-ru数据集通过系统化流程构建而成。该数据集整合了来自多个权威领域的问答数据,包括金融领域的FinQA、法律领域的CUAD以及医疗领域的COVIDQA等,每个子集均包含原始问题、参考文档和生成回答。构建过程中采用自动化与人工标注相结合的方式,对回答与文档之间的支持关系进行细粒度标注,并引入多维度评估指标确保数据质量。所有英文内容均经过专业翻译流程转化为俄语版本,形成完整的双语平行语料。
使用方法
在自然语言处理研究实践中,该数据集主要服务于检索增强生成系统的性能评估。研究人员可通过加载特定领域子集(如covidqa或finqa)进行端到端测试,利用预计算的评估指标快速对比模型表现。典型使用流程包括:解析问题-文档对生成回答,基于句子支持信息验证事实一致性,结合多维度评分体系进行综合分析。数据集提供的俄语版本特别适用于跨语言迁移学习研究,支持模型在俄语环境下的泛化能力验证。
背景与挑战
背景概述
在检索增强生成(RAG)系统快速发展的背景下,ragbench-ru数据集应运而生,旨在评估多语言环境下RAG模型的知识溯源与事实一致性能力。该数据集由研究团队基于原始英文版RAGBench进行俄语翻译构建,涵盖COVID-QA、CUAD、ExpertQA等七个专业领域的问答数据。其核心研究问题聚焦于跨语言场景中模型回答的忠实度与上下文相关性量化,通过集成Trulens、RAGAS等多种评估指标,为俄语RAG系统的可解释性研究提供了重要基准。
当前挑战
该数据集致力于解决俄语RAG系统中答案可信度验证的核心难题,具体包括模型生成内容与原文证据的细粒度对齐、跨语言语义一致性维护等挑战。构建过程中面临双重障碍:一是专业领域术语的精准翻译需保持技术文档的逻辑完整性,二是俄语语法结构与英文的显著差异导致句子级支持关系标注的复杂性。此外,多评估指标的统一标定与语言特有表达习惯的适配,进一步增加了数据质量控制的难度。
常用场景
经典使用场景
在检索增强生成技术领域,ragbench-ru数据集作为多语言评估基准,其经典应用体现在对俄语问答系统的事实准确性验证。该数据集通过整合COVID-19医疗咨询、金融分析等专业领域的双语问答对,系统评估生成模型在俄语语境下的文档检索与答案生成能力。其特有的句子级支持信息标注体系,为衡量模型响应与原始文档的语义一致性提供了细粒度评估框架。
解决学术问题
该数据集有效解决了跨语言检索增强生成系统中的三大核心问题:首先通过多维度评估指标(如忠实度、上下文相关性)量化模型的知识溯源能力,其次针对低资源语言场景下的语义对齐难题提供标准化测试方案,最后通过俄英双语平行语料填补了非英语RAG系统评估的数据空白。这种结构化评估范式显著推进了多语言生成模型的可解释性研究。
实际应用
在现实应用层面,ragbench-ru已成为俄语智能客服系统与专业领域知识引擎的核心测试基准。金融机构利用其财务问答模块验证自动化报告生成的准确性,医疗健康领域借助COVID-19子集优化疫情咨询机器人。该数据集支撑的评估体系正逐步融入企业级RAG系统开发流程,确保俄语生成内容在法律、医疗等高风险场景下的可靠性。
数据集最近研究
最新研究方向
在检索增强生成(RAG)系统评估领域,ragbench-ru数据集通过俄语翻译版本为多语言RAG模型验证开辟了新路径。该数据集整合了COVID-QA、CUAD、ExpertQA等专业领域问答数据,其前沿研究聚焦于跨语言事实性验证与可解释性评估,通过Trulens、RAGAS等多维指标分析生成答案的忠实度与上下文相关性。随着多语言大模型在金融、医疗等高风险领域的应用扩展,该数据集为评估模型在俄语语境下的知识溯源能力和幻觉抑制机制提供了关键基准,推动了可信人工智能系统的国际化发展进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作