LFAI_RAG_qa_v1

Hugging Face2024-07-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jalling/LFAI_RAG_qa_v1

下载链接

链接失效反馈

官方服务：

资源简介：

LFAI_RAG_qa_v1数据集旨在为LeapfrogAI的RAG相关问答评估提供基础。该数据集包含36个问题/答案/上下文条目，专为支持LLM作为评判的RAG评估而设计。数据集中的每个条目包含问题、预期答案和上下文信息，这些信息来源于多个PDF文档。数据集的创建过程包括使用DeepEval的合成器从源文档生成数据，然后通过筛选和修改来提高数据质量。数据集的潜在偏见和风险包括使用GPT-4o生成数据以及可能的训练数据重叠问题。

创建时间：

2024-07-20

原始信息汇总

LFAI_RAG_qa_v1 数据集概述

数据集基本信息

语言: 英文 (en)
许可证: Apache 2.0 (apache-2.0)
配置名称: LFAI_RAG_qa_v1
数据文件: LFAI_RAG_qa_v1.json (eval 分割)
默认配置: 是

数据集详情

目的: 作为 LeapfrogAI 中 RAG（检索增强生成）评估的基础。
内容: 包含 36 个问题/答案/上下文条目，用于基于 LLM 作为评判者的 RAG 评估。

示例条目结构

json { "input": "问题文本", "actual_output": null, "expected_output": "预期答案", "context": ["相关上下文"], "source_file": "源文件路径" }

数据来源

数据生成自以下文档：

https://www.humanesociety.org/sites/default/files/docs/HSUS_ACFS-2023.pdf
https://www.whitehouse.gov/wp-content/uploads/2024/04/Global-Health-Security-Strategy-2024-1.pdf
https://www.armed-services.senate.gov/imo/media/doc/fy24_ndaa_conference_executive_summary1.pdf
https://dodcio.defense.gov/Portals/0/Documents/Library/(U)%202024-01-02%20DoD%20Cybersecurity%20Reciprocity%20Playbook.pdf
https://assets.ctfassets.net/oggad6svuzkv/2pIQQWQXPpxiKjjmhfpyWf/eb17b3f3c9c21f7abb05e68c7b1f3fcd/2023_annual_report.pdf
https://www.toyota.com/content/dam/toyota/brochures/pdf/2024/T-MMS-24Corolla.pdf
https://docs.nvidia.com/jetson/archives/r36.3/ReleaseNotes/Jetson_Linux_Release_Notes_r36.3.pdf
https://arxiv.org/pdf/2406.05370.pdf

完整文档可下载: document_context.zip

数据集用途

专为与 DeepEval 兼容的 LLM-as-a-judge 评估设计。

数据结构

遵循 DeepEval 的 Test Case Goldens 格式，包含以下字段：

input: 提问问题
expected_output: 真实答案
context: 包含答案的文档上下文

数据集创建

使用 DeepEval 的 Synthesizer 从源文档生成。
经过以下优化：
- 移除格式不佳或过于简单的问题
- 移除与上下文不符的问题/答案对
- 修改问题以提高准确性和简洁性

偏差、风险与限制

使用 GPT-4o 生成，带有模型和人工标注者的偏差。
源文档可能在未来模型训练数据中出现。

作者与联系方式

作者: Defense Unicorns 的 Leapfrogai 团队
联系方式: ai@defenseunicorns.com

搜集汇总

数据集介绍

构建方式

LFAI_RAG_qa_v1数据集的构建过程主要依赖于DeepEval的Synthesizer工具，该工具从多个公开文档中自动生成问题与答案对。生成的数据经过严格筛选，剔除了格式不规范或过于简单的问题，并修正了问题与答案之间的逻辑一致性，以确保数据集的高质量。此外，问题被进一步优化，以减少冗余并提高事实准确性。

特点

LFAI_RAG_qa_v1数据集包含36个问题/答案/上下文条目，专门设计用于支持基于LLM-as-a-judge的RAG评估。每个条目包含输入问题、预期输出答案以及相关的上下文信息，这些上下文信息直接来源于原始文档。数据集的结构遵循DeepEval的Golden测试用例格式，确保了与评估框架的高度兼容性。

使用方法

该数据集可直接用于LLM-as-a-judge的评估任务，特别适用于DeepEval框架。用户可以通过输入问题，结合提供的上下文信息，评估模型生成的答案与预期输出的匹配度。数据集的设计旨在帮助用户验证模型在特定文档背景下的问答能力，适用于需要高精度问答系统的场景。

背景与挑战

背景概述

LFAI_RAG_qa_v1数据集由Defense Unicorns团队于2024年创建，旨在为LeapfrogAI项目提供基于检索增强生成（RAG）的问答评估基础。该数据集包含36个问答对及其相关上下文，主要用于支持LLM-as-a-judge模式的RAG评估。数据来源广泛，涵盖技术文档、政府报告和企业年报等，确保了数据的多样性和实用性。通过DeepEval工具生成并优化，该数据集为评估大型语言模型在复杂文档检索任务中的表现提供了重要参考。

当前挑战

LFAI_RAG_qa_v1数据集面临的主要挑战包括：1) 领域问题的挑战，即如何确保模型在检索和生成答案时能够准确理解并利用复杂文档中的上下文信息；2) 构建过程中的挑战，包括数据清洗和优化，例如去除格式不佳或过于简单的问题，以及调整问题以提高事实准确性。此外，数据集依赖于GPT-4o生成，可能携带模型本身的偏见，且随着新模型的发布，数据集的独特性可能逐渐减弱。

常用场景

经典使用场景

LFAI_RAG_qa_v1数据集专为RAG（检索增强生成）评估设计，特别适用于基于LLM（大语言模型）的问答系统测试。该数据集通过提供36个问题/答案/上下文条目，支持开发者对模型在特定文档中的信息检索和生成能力进行精确评估。其经典使用场景包括在LeapfrogAI平台上进行RAG模型的性能测试，确保模型能够准确理解并回答复杂的技术问题。

解决学术问题

LFAI_RAG_qa_v1数据集解决了在RAG模型评估中缺乏高质量、特定领域测试数据的问题。通过提供精确的问题、答案和上下文，该数据集帮助研究者评估模型在特定文档中的信息检索和生成能力，从而推动RAG技术的进一步发展。其意义在于为学术界提供了一个标准化的评估工具，促进了RAG模型在复杂场景下的性能提升。

衍生相关工作

LFAI_RAG_qa_v1数据集的发布催生了一系列相关研究工作，特别是在RAG模型评估和优化领域。基于该数据集，研究者开发了多种新的评估方法和优化策略，如基于DeepEval的自动化评估工具和针对特定领域的RAG模型微调技术。这些工作不仅提升了RAG模型的性能，还为其他领域的问答系统评估提供了参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集