OmniEval

github2024-12-18 更新2024-12-19 收录

下载链接：

https://github.com/RUC-NLPIR/OmniEval

下载链接

链接失效反馈

官方服务：

资源简介：

OmniEval是一个在金融领域中用于全方位和自动化RAG评估的基准数据集，包括自动生成的评估数据集和构建的知识语料库。

OmniEval is a benchmark dataset for comprehensive and automated RAG evaluation in the financial domain, including automatically generated evaluation datasets and a constructed knowledge corpus.

创建时间：

2024-12-18

原始信息汇总

OmniEval: Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

数据集概述

OmniEval 是一个面向金融领域的全方位自动检索增强生成（RAG）评估基准。该数据集提供了以下两个主要数据集：

自动生成的评估数据集：
- 链接：OmniEval-AutoGen-Dataset
构建的知识语料库：
- 链接：OmniEval-KnowledgeCorpus

数据集使用

1. 构建检索语料库

如果使用提供的知识语料库，可以从以下链接下载：
- 链接：FlashRAG_datasets
- 将下载的文件移动到 ./OpenFinBench/corpus/nodes_dir 目录下。
如果需要构建自己的知识语料库，可以执行以下脚本： bash sh corpus_builder/build_corpus.sh

2. 生成评估数据样本

生成评估实例： bash sh data_generator/generate_data.sh
过滤（质量检查）评估实例： bash sh data_generator/generate_data_filter.sh

3. 模型推理

配置 API 进行推理： bash sh evaluator/inference/rag_inference.sh

4. 模型评估

(a) 基于模型的评估

提供了五个基于模型的评估指标：准确性、完整性、利用率、数值准确性和幻觉。
评估模型可以从以下链接加载：
1. 幻觉评估模型：OmniEval-HallucinationEvaluator
2. 其他评估模型：OmniEval-ModelEvaluator

(b) 基于规则的评估

设置 judge_type 为 rule： bash sh evaluator/judgement/judger.sh

许可证

OmniEval 使用 MIT 许可证。

引用

bibtex @misc{wang2024omnievalomnidirectionalautomaticrag, title={OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain}, author={Shuting Wang and Jiejun Tan and Zhicheng Dou and Ji-Rong Wen}, year={2024}, eprint={2412.13018}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.13018}, }

搜集汇总

数据集介绍

构建方式

OmniEval数据集的构建方式体现了其在金融领域中全方位自动评估的独特性。该数据集通过自动生成评估数据集和构建知识语料库的方式，结合了多种技术和方法。首先，数据集提供了预构建的知识语料库，用户可以直接下载并使用。其次，用户也可以选择自定义构建知识语料库，通过设置参数如数据根目录、源文档目录、保存名称、分块大小和重叠大小等，使用脚本`build_corpus.sh`进行构建。此外，评估数据样本的生成也通过脚本`generate_data.sh`和`generate_data_filter.sh`实现，确保了数据的质量和多样性。

使用方法

使用OmniEval数据集进行模型评估的步骤包括构建检索语料库、生成评估数据样本、模型推理和模型评估。首先，用户可以选择使用预构建的知识语料库或自定义构建。接着，通过脚本生成评估数据样本并进行质量检查。然后，用户可以配置API进行模型推理，设置评估模型的名称和检索模型名称。最后，通过模型评估脚本进行模型评估，包括模型评估和规则评估，生成最终的评估结果。

背景与挑战

背景概述

OmniEval数据集由中国人民大学自然语言处理与信息检索研究中心（RUC-NLPIR）开发，旨在为金融领域的检索增强生成（RAG）模型提供一个全方位自动评估基准。该数据集的核心研究问题是如何在金融领域中实现高效、准确的RAG模型评估，以确保模型在复杂金融文本中的表现。OmniEval的创建不仅填补了金融领域RAG评估的空白，还为相关研究提供了丰富的资源和工具，推动了该领域的技术进步。

当前挑战

OmniEval数据集在构建过程中面临多项挑战。首先，金融领域的文本具有高度专业性和复杂性，如何确保生成的评估数据样本的质量和相关性是一个重要挑战。其次，构建知识库时需要处理大量非结构化数据，并将其有效地分割和索引，以支持高效的检索。此外，模型评估过程中需要考虑多种指标，如准确性、完整性、利用率和幻觉率等，这些指标的计算和验证都需要精确的算法和模型支持。最后，如何在保证评估结果可靠性的同时，提高评估效率也是一个亟待解决的问题。

常用场景

经典使用场景

OmniEval数据集在金融领域的问答系统（RAG）评估中展现了其经典应用场景。该数据集通过自动生成和多维度的评估指标，为金融领域的检索增强生成（RAG）模型提供了全面的评估框架。研究者可以利用该数据集对模型在准确性、完整性、利用率、数值准确性和幻觉生成等方面的表现进行细致的分析和比较。

解决学术问题

OmniEval数据集解决了金融领域RAG模型评估中的多个学术研究问题。首先，它通过自动生成评估数据，解决了传统评估方法中数据获取困难的问题。其次，其多维度的评估指标体系为模型的全面评估提供了可能，尤其是在幻觉生成和数值准确性等复杂问题上，提供了新的研究视角。这些解决方案不仅提升了评估的效率，还为金融领域的智能问答系统研究提供了重要的理论支持。

实际应用

在实际应用中，OmniEval数据集为金融领域的智能问答系统提供了可靠的评估工具。金融机构可以利用该数据集对自研的RAG模型进行性能测试，确保其在实际业务场景中的准确性和可靠性。此外，该数据集还可用于模型的持续优化和迭代，帮助金融机构提升客户服务质量和决策支持能力。

数据集最近研究