GroUSE

Name: GroUSE
Creator: Illuin Technology
Published: 2024-09-10 23:39:32
License: 暂无描述

arXiv2024-09-10 更新2024-09-12 收录

下载链接：

https://github.com/illuin-tech/grouse

下载链接

链接失效反馈

官方服务：

资源简介：

GroUSE数据集由Illuin Technology创建，是一个用于评估基于检索增强生成（RAG）系统的接地问答（Grounded QA）评估器的校准和判别能力的元评估基准。该数据集包含144个手动策划的单元测试，涵盖16种不同的情景，旨在检测和区分不同的答案失败模式。数据集的创建过程涉及从维基百科和新闻文章中精选参考文献，并设计了16种测试类型来评估评估器在各种边缘情况下的表现。GroUSE数据集主要应用于自然语言处理领域，特别是用于评估和改进RAG系统的自动评估框架，以解决现有评估框架在检测重要失败模式方面的不足。

Created by Illuin Technology, the GroUSE dataset is a meta-evaluation benchmark designed to evaluate the calibration and discriminative abilities of grounded question answering (Grounded QA) evaluators for retrieval-augmented generation (RAG) systems. This dataset includes 144 manually curated unit tests covering 16 distinct scenarios, which aim to detect and distinguish between different answer failure modes. The dataset creation process involves selecting reference materials from Wikipedia and news articles, and designing 16 test types to assess the evaluators' performance across various edge cases. The GroUSE dataset is primarily applied in the field of natural language processing, particularly for evaluating and improving automatic evaluation frameworks for RAG systems to address the shortcomings of existing evaluation frameworks in detecting critical failure modes.

提供机构：

Illuin Technology

创建时间：

2024-09-10

原始信息汇总

GroUSE 数据集概述

数据集用途

用于评估基于问题回答（Grounded Question Answering, GQA）模型和GQA评估模型。
实现GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering中描述的评估方法。

数据格式

数据集以jsonl文件格式存储，每行包含以下字段：
- references: 参考列表
- input: 查询
- actual_output: 模型生成的预测答案
- expected_output: 输入的正确答案

示例数据

示例数据位于example_data/grounded_qa.jsonl。

评估方法

使用GPT-4作为评估模型，但可以通过可选参数更改模型和提示。
可选参数包括：
- --evaluator_model_name: 评估模型的名称，默认为GPT-4。
- --prompts_path: 包含评估模型提示的文件夹路径。

元评估

使用GroUSE单元测试评估GQA评估模型。
可选参数包括：
- --prompts_path: 包含评估模型提示的文件夹路径。
- --train_set: 可选标志，用于在训练集（16个测试）上进行元评估，而不是测试集（144个测试）。训练集用于提示工程阶段。

结果可视化

可以绘制单元测试结果的矩阵图。

引用

latex @misc{muller2024grousebenchmarkevaluateevaluators, title={GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering}, author={Sacha Muller and António Loison and Bilel Omrani and Gautier Viaud}, year={2024}, eprint={2409.06595}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.06595}, }

搜集汇总

数据集介绍

构建方式

GroUSE数据集的构建方式是通过对 grounded question answering 任务中的各种失败模式进行系统性的审查，并提出了一个自动化的评估流程，该流程使用 GPT-4 作为评估者来评估 grounded 答案的质量。为了全面覆盖所有失败模式，我们引入了 GroUSE，这是一个包含 144 个单元测试的元评估基准。所有测试都经过人工设计，旨在评估评估者模型是否能够正确地惩罚所有失败模式，并在各种场景中奖励准确的答案。

特点

GroUSE数据集的特点是全面性和挑战性。它包含了 144 个单元测试，这些测试涵盖了 grounded question answering 任务中的各种失败模式，并针对不同的场景设计了不同的测试类型。GroUSE 的测试主要关注边缘情况或细微错误的检测，旨在评估评估者模型在实际应用中的表现。此外，GroUSE 的测试样本涵盖了各种主题，包括历史、科学、动物学、电影制作和医学等领域，这使得数据集具有广泛的适用性。

使用方法

GroUSE数据集的使用方法包括以下步骤：1. 使用 GPT-4 或其他评估者模型对 grounded 答案进行评估；2. 将评估结果与 GroUSE 的预期结果进行比较；3. 分析评估者模型的性能，并找出其不足之处。GroUSE 的使用可以帮助研究人员和开发者更好地理解 grounded question answering 任务的复杂性，并提高评估者模型的质量。

背景与挑战

背景概述

GroUSE数据集是一项旨在评估基于检索增强生成的系统（RAG）中生成答案质量的新基准。RAG系统使用信息检索系统匹配用户问题与知识库中的相关文档，然后利用语言模型生成基于这些文档的答案。为了确保答案的质量和可解释性，模型被要求仅使用提供的上下文信息，并将答案与提供的文档相接地。GroUSE数据集由来自不同领域的144个单元测试组成，旨在评估评估模型的校准和区分能力。该数据集由Illuin Technology的研究人员Sacha Muller、António Loison、Bilel Omrani和Gautier Viaud创建，并在2024年9月发布。GroUSE数据集对于评估基于RAG系统的生成答案的质量具有重要意义，并为相关领域的研究提供了宝贵的资源。

当前挑战

GroUSE数据集面临的主要挑战包括：1) 现有的自动化RAG评估框架往往忽略了重要的失败模式，即使使用GPT-4作为评估者也无法全面评估。2) 现有的开源评估者模型无法很好地泛化到GroUSE数据集上提出的标准，尽管与GPT-4的评估结果具有高度相关性。3) 评估模型的校准和区分能力需要进一步改进，以确保能够在各种情况下准确检测和区分不同的答案失败模式。4) 现有的评估框架在处理边缘案例和细微错误方面存在局限性，需要进一步优化以实现更精确的评估。

常用场景

经典使用场景

GroUSE 数据集主要用于评估基于检索增强生成 (RAG) 系统中答案评估模型的性能。该数据集通过 144 个单元测试，涵盖了 16 种不同的场景，旨在测试评估模型是否能够准确评估答案的质量，并识别和区分不同的答案失败模式。

衍生相关工作

GroUSE 数据集的发布促进了相关研究的发展。例如，研究者可以基于该数据集开发新的答案评估模型，并通过与 GPT-4 的推理轨迹进行微调来提高模型的评估能力。此外，GroUSE 数据集还可以用于研究 RAG 系统中答案评估模型的鲁棒性和泛化能力，以及探索新的评估指标和方法。

数据集最近研究