RAGaliq

github2024-11-22 更新2024-11-28 收录

下载链接：

https://github.com/chameleon-lizard/Ragaliq

下载链接

链接失效反馈

官方服务：

资源简介：

一个简单的开源多语言RAG基准测试数据集，包含从Skoltech的90页定向课程中提取的事实片段，并翻译成德语、法语、西班牙语、俄语和中文。数据集还包括生成的问答对，并根据有用性、独立性和基础性进行评分。

A simple open-source multilingual Retrieval-Augmented Generation (RAG) benchmark dataset. It contains factual segments extracted from 90-page targeted courses from Skoltech, which have been translated into German, French, Spanish, Russian and Chinese. The dataset also includes generated question-answer pairs that are scored based on usefulness, independence, and grounding.

创建时间：

2024-11-05

原始信息汇总

RAGaliq eval 🥐

数据描述

数据来源：90页的Skoltech新生入学指导课程，原版为英文，翻译成德语、法语、西班牙语、俄语和中文。
数据处理：
- 使用Gemini Flash模型进行翻译和问题生成。
- 数据被分块并提取事实信息，生成问题和答案。
- 问题通过三个指标进行评分：
  - Usefulness：问题对Skoltech学生是否有用。
  - Standalone：问题是否可以在不依赖原始块的情况下独立存在。
  - Groundedness：问题是否只能使用源块中的信息以唯一方式回答。
多语言支持：问题和答案被翻译成相同的五种语言。

评分标准

评分等级：
- 0分：响应表明在上下文中没有找到关于所提问题的信息。
- 1分：响应完全错误、不准确或不真实。
- 2分：响应大部分错误、不准确或不真实。
- 3分：响应部分正确、准确或真实。
- 4分：响应大部分正确、准确和真实。
- 5分：响应完全正确、准确和真实。
评分方法：
- Mean judge score：平均评分。
- Mean judge score without zeros：去除0分后的平均评分。
- Weighted judge score：加权评分。

安装与运行

安装：
- 创建虚拟环境并安装依赖。
- 需要提供API令牌和API链接。
运行评估：
- 直接运行评估脚本或修改评估脚本。
- 支持多种语言评估。

搜集汇总

数据集介绍

构建方式

RAGaliq数据集的构建基于Skoltech的90页英语入门课程，通过Gemini Flash模型将其翻译成德语、法语、西班牙语、俄语和中文。随后，数据被分块并提取事实信息，利用同一模型生成与提取事实相对应的问题和答案。生成的问答对经过三个指标的评估：有用性、独立性和基础性。最终，问答对被翻译回原始的五种语言，形成一个多语言的问答数据集。

特点

RAGaliq数据集的显著特点在于其多语言性和高质量的问答对。通过Gemini Flash模型的多轮翻译和生成，确保了问答对在不同语言中的准确性和一致性。此外，数据集的问答对经过严格的三重评估，确保了问题的有用性、独立性和基础性，使其在教育领域具有较高的应用价值。

使用方法

使用RAGaliq数据集时，用户可以通过提供的脚本进行模型评估，包括计算平均评分、排除零分的平均评分和加权评分。用户需配置API令牌和链接，并根据需要调整评估脚本。数据集支持多语言评估，用户可以选择特定的语言或评估所有语言。此外，用户可以通过修改RAG管道中的Chatbot类来定制评估流程。

背景与挑战

背景概述

RAGaliq数据集是由Skoltech的研究人员创建的一个多语言检索增强生成（RAG）基准测试数据集。该数据集的核心研究问题是如何在多语言环境下，通过自动生成和评估问题来提高检索和生成模型的性能。研究人员将Skoltech的90页英语课程材料翻译成德语、法语、西班牙语、俄语和中文，并使用Gemini Flash模型生成相关问题和答案。这一数据集的创建旨在推动多语言环境下自然语言处理技术的发展，特别是在检索和生成任务中的应用。

当前挑战

RAGaliq数据集面临的挑战主要包括多语言翻译的准确性和一致性问题，以及在生成问题和答案时如何保持信息的准确性和相关性。此外，评估生成的答案质量也是一个重要挑战，需要设计合理的评分机制和指标。数据集的构建过程中，研究人员还必须解决如何有效地将生成的数据应用于实际模型评估和改进的问题。

常用场景

经典使用场景

RAGaliq数据集在多语言问答系统中展现了其经典应用场景。通过将Skoltech的90页英文课程材料翻译成德语、法语、西班牙语、俄语和中文，并生成相应的问题和答案，该数据集为跨语言知识检索和问答系统提供了丰富的训练和评估资源。其独特之处在于，问题生成和评分均采用Gemini Flash模型，确保了问题与答案的准确性和实用性。

解决学术问题

RAGaliq数据集解决了多语言环境下问答系统的评估难题。通过提供多语言的问答对，该数据集使得研究者能够在不同语言间进行问答系统的性能比较，从而推动了跨语言信息检索技术的发展。此外，其评分机制引入了LLM-as-a-judge，为问答系统的自动评估提供了新的标准，具有重要的学术研究价值。

衍生相关工作

RAGaliq数据集的发布催生了多项相关研究工作。例如，有研究者基于该数据集开发了新的多语言问答模型，显著提升了跨语言问答的准确性。此外，还有研究探讨了如何利用RAGaliq数据集中的多语言问答对来训练更强大的语言模型，从而推动了自然语言处理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集