five

OmniEval

收藏
github2024-12-18 更新2024-12-19 收录
下载链接:
https://github.com/RUC-NLPIR/OmniEval
下载链接
链接失效反馈
官方服务:
资源简介:
OmniEval是一个在金融领域中用于全方位和自动化RAG评估的基准数据集,包括自动生成的评估数据集和构建的知识语料库。

OmniEval is a benchmark dataset for comprehensive and automated RAG evaluation in the financial domain, including automatically generated evaluation datasets and a constructed knowledge corpus.
创建时间:
2024-12-18
原始信息汇总

OmniEval: Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

数据集概述

OmniEval 是一个面向金融领域的全方位自动检索增强生成(RAG)评估基准。该数据集提供了以下两个主要数据集:

  1. 自动生成的评估数据集

  2. 构建的知识语料库

数据集使用

1. 构建检索语料库

  • 如果使用提供的知识语料库,可以从以下链接下载:

    • 链接:FlashRAG_datasets
    • 将下载的文件移动到 ./OpenFinBench/corpus/nodes_dir 目录下。
  • 如果需要构建自己的知识语料库,可以执行以下脚本: bash sh corpus_builder/build_corpus.sh

2. 生成评估数据样本

  • 生成评估实例: bash sh data_generator/generate_data.sh

  • 过滤(质量检查)评估实例: bash sh data_generator/generate_data_filter.sh

3. 模型推理

  • 配置 API 进行推理: bash sh evaluator/inference/rag_inference.sh

4. 模型评估

(a) 基于模型的评估

(b) 基于规则的评估

  • 设置 judge_typerule: bash sh evaluator/judgement/judger.sh

许可证

OmniEval 使用 MIT 许可证

引用

bibtex @misc{wang2024omnievalomnidirectionalautomaticrag, title={OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain}, author={Shuting Wang and Jiejun Tan and Zhicheng Dou and Ji-Rong Wen}, year={2024}, eprint={2412.13018}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.13018}, }

搜集汇总
数据集介绍
main_image_url
构建方式
OmniEval数据集的构建方式体现了其在金融领域中全方位自动评估的独特性。该数据集通过自动生成评估数据集和构建知识语料库的方式,结合了多种技术和方法。首先,数据集提供了预构建的知识语料库,用户可以直接下载并使用。其次,用户也可以选择自定义构建知识语料库,通过设置参数如数据根目录、源文档目录、保存名称、分块大小和重叠大小等,使用脚本`build_corpus.sh`进行构建。此外,评估数据样本的生成也通过脚本`generate_data.sh`和`generate_data_filter.sh`实现,确保了数据的质量和多样性。
使用方法
使用OmniEval数据集进行模型评估的步骤包括构建检索语料库、生成评估数据样本、模型推理和模型评估。首先,用户可以选择使用预构建的知识语料库或自定义构建。接着,通过脚本生成评估数据样本并进行质量检查。然后,用户可以配置API进行模型推理,设置评估模型的名称和检索模型名称。最后,通过模型评估脚本进行模型评估,包括模型评估和规则评估,生成最终的评估结果。
背景与挑战
背景概述
OmniEval数据集由中国人民大学自然语言处理与信息检索研究中心(RUC-NLPIR)开发,旨在为金融领域的检索增强生成(RAG)模型提供一个全方位自动评估基准。该数据集的核心研究问题是如何在金融领域中实现高效、准确的RAG模型评估,以确保模型在复杂金融文本中的表现。OmniEval的创建不仅填补了金融领域RAG评估的空白,还为相关研究提供了丰富的资源和工具,推动了该领域的技术进步。
当前挑战
OmniEval数据集在构建过程中面临多项挑战。首先,金融领域的文本具有高度专业性和复杂性,如何确保生成的评估数据样本的质量和相关性是一个重要挑战。其次,构建知识库时需要处理大量非结构化数据,并将其有效地分割和索引,以支持高效的检索。此外,模型评估过程中需要考虑多种指标,如准确性、完整性、利用率和幻觉率等,这些指标的计算和验证都需要精确的算法和模型支持。最后,如何在保证评估结果可靠性的同时,提高评估效率也是一个亟待解决的问题。
常用场景
经典使用场景
OmniEval数据集在金融领域的问答系统(RAG)评估中展现了其经典应用场景。该数据集通过自动生成和多维度的评估指标,为金融领域的检索增强生成(RAG)模型提供了全面的评估框架。研究者可以利用该数据集对模型在准确性、完整性、利用率、数值准确性和幻觉生成等方面的表现进行细致的分析和比较。
解决学术问题
OmniEval数据集解决了金融领域RAG模型评估中的多个学术研究问题。首先,它通过自动生成评估数据,解决了传统评估方法中数据获取困难的问题。其次,其多维度的评估指标体系为模型的全面评估提供了可能,尤其是在幻觉生成和数值准确性等复杂问题上,提供了新的研究视角。这些解决方案不仅提升了评估的效率,还为金融领域的智能问答系统研究提供了重要的理论支持。
实际应用
在实际应用中,OmniEval数据集为金融领域的智能问答系统提供了可靠的评估工具。金融机构可以利用该数据集对自研的RAG模型进行性能测试,确保其在实际业务场景中的准确性和可靠性。此外,该数据集还可用于模型的持续优化和迭代,帮助金融机构提升客户服务质量和决策支持能力。
数据集最近研究
最新研究方向
在金融领域,OmniEval数据集的最新研究方向主要集中在自动化和全方位评估检索增强生成(RAG)模型。该数据集通过提供自动生成的评估数据集和构建的知识语料库,支持对RAG模型在多个维度上的评估,包括准确性、完整性、利用率、数值准确性和幻觉检测。这些评估不仅有助于提升模型在金融领域的应用效果,还为模型在复杂金融场景中的鲁棒性和可靠性提供了重要参考。此外,OmniEval的模型评估方法结合了基于规则和基于模型的评估策略,进一步推动了RAG模型在金融领域的标准化和优化研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作