Ru RAG Test Dataset

github2024-05-07 更新2024-05-31 收录

下载链接：

https://github.com/slivka83/ru_rag_test_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于测试俄语RAG系统的数据集。包含以下数据：1. 文件（在files文件夹中）- 从俄语维基百科抓取的页面。文件名是页面id。2. 保存为Pickle格式的Pandas数据框（ru_rag_test_dataset.pkl），包含问题、正确答案、包含正确答案的段落和文件名。3. RAG数据集.ipynb笔记本中的代码用于重现。

A dataset designed for testing Russian RAG systems. It includes the following data: 1. Files (located in the 'files' folder) - pages scraped from the Russian Wikipedia. The filenames correspond to the page IDs. 2. A Pandas DataFrame saved in Pickle format (ru_rag_test_dataset.pkl), containing questions, correct answers, paragraphs that include the correct answers, and filenames. 3. Code within the 'RAG Dataset.ipynb' notebook for reproduction purposes.

创建时间：

2024-04-05

原始信息汇总

Ru RAG Test Dataset 概述

数据集内容

文件数据

位置: 位于 files 文件夹内
内容: 包含从俄语维基百科抓取的页面
文件名: 页面ID，可通过以下URL访问: https://ru.wikipedia.org/?curid=<id>

数据框数据

文件名: ru_rag_test_dataset.pkl
格式: Pickle 格式
列信息:
- Вопрос (问题)
- Правильный ответ (正确答案)
- Контекст (上下文) - 包含正确答案的段落
- Название файла (文件名) - 包含正确答案的文件名

代码示例

文件名: RAG dataset.ipynb
内容: 包含用于重现数据集的代码

数据集来源

基于 RuBQ 2.0 数据集 (https://github.com/vladislavneon/RuBQ)，筛选出那些答案仅存在于单一文章、单一段落中的问题。

搜集汇总

数据集介绍

构建方式

Ru RAG Test Dataset 的构建基于 RuBQ 2.0 数据集，经过精心筛选，仅保留了那些答案仅存在于单一维基百科文章中的问题。具体而言，数据集通过抓取俄语维基百科页面，将页面内容存储在文件夹中，并以页面ID命名文件。此外，构建了一个包含问题、正确答案、答案所在段落及对应文件名的Pandas数据框，并以Pickle格式保存，便于后续处理和分析。

特点

该数据集的显著特点在于其专注于俄语RAG系统的测试，确保每个问题的答案仅存在于单一的维基百科段落中，从而提高了数据集的精确性和一致性。此外，数据集不仅提供了原始文本数据，还通过数据框的形式组织了问题与答案的对应关系，便于直接用于模型训练和评估。

使用方法

使用该数据集时，用户可以通过提供的Jupyter Notebook代码进行数据集的加载和处理。数据集中的Pandas数据框可以直接用于训练或测试RAG模型，而维基百科文件则提供了丰富的背景信息，支持更深入的语义理解。用户可以根据需要调整代码，以适应不同的模型架构和实验需求。

背景与挑战

背景概述

Ru RAG Test Dataset 是一个专门为测试俄语RAG（Retrieval-Augmented Generation）系统而设计的数据集。该数据集由研究人员基于RuBQ 2.0数据集构建，旨在提供高质量的俄语问答数据，以支持信息检索与生成模型的研究。数据集的核心内容包括从俄语维基百科中提取的页面文件，以及一个包含问题、正确答案、相关上下文和文件名的Pandas数据框。通过这些数据，研究人员可以评估和优化俄语RAG系统在处理复杂问答任务时的表现。该数据集的创建不仅丰富了俄语自然语言处理领域的资源，还为相关研究提供了重要的基准数据。

当前挑战

Ru RAG Test Dataset 在构建过程中面临了多个挑战。首先，数据集的构建需要从庞大的RuBQ 2.0数据集中筛选出符合特定条件的问答对，确保每个问题的答案仅存在于一个维基百科页面中的一个段落内，这增加了数据清洗和处理的复杂性。其次，如何确保提取的上下文信息与答案的准确匹配，以及如何处理维基百科页面中的噪声数据，都是构建过程中需要解决的关键问题。此外，该数据集的应用还面临模型在处理俄语复杂语法和语义时的挑战，尤其是在生成回答时如何保持语言的自然性和准确性。

常用场景

经典使用场景

Ru RAG Test Dataset 主要用于测试和评估俄语RAG（Retrieval-Augmented Generation）系统的性能。该数据集通过提供结构化的问答对及其对应的上下文信息，使得研究者能够精确地衡量模型在检索和生成任务中的表现。经典的使用场景包括：在俄语问答系统中，通过输入问题，系统能够从维基百科的俄语页面中检索出相关的段落，并生成准确的答案。

衍生相关工作

基于Ru RAG Test Dataset，研究者已开展了一系列相关工作，包括改进俄语问答系统的检索算法、优化生成模型的语言表达能力，以及探索多模态信息融合的方法。这些工作不仅提升了现有系统的性能，还为未来的研究提供了新的方向和思路，推动了俄语自然语言处理领域的持续发展。

数据集最近研究