LFAI_RAG_qa_v1

Hugging Face2024-08-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/defenseunicorns/LFAI_RAG_qa_v1

下载链接

链接失效反馈

官方服务：

资源简介：

LFAI_RAG_qa_v1数据集旨在作为RAG聚焦问答评估的基础，特别适用于LeapfrogAI项目。该数据集包含36个问题/答案/上下文条目，设计用于LLM作为评判的RAG评估。每个条目包括问题、预期输出和上下文，上下文来源于多个PDF文档，涉及技术、政策等多个领域。数据集的创建使用了DeepEval的Synthesizer，并经过多轮筛选和修改以提高问题和答案的质量和相关性。

The LFAI_RAG_qa_v1 dataset is intended as a foundational resource for retrieval-augmented generation (RAG) focused question answering evaluation, specifically tailored for the LeapfrogAI project. This dataset contains 36 question/answer/context entries, designed for RAG assessments where large language models (LLMs) serve as evaluators. Each entry includes a question, expected output, and context, with the context sourced from multiple PDF documents covering diverse domains such as technology and policy. The dataset was constructed using DeepEval's Synthesizer, and has gone through multiple rounds of filtering and revision to enhance the quality and relevance of both the questions and their corresponding answers.

创建时间：

2024-07-20

原始信息汇总

LFAI_RAG_qa_v1 数据集概述

数据集详情

LFAI_RAG_qa_v1 包含 36 个问题/答案/上下文条目，旨在用于支持 LLM-as-a-judge 的 RAG 评估。

示例

json { "input": "What requirement must be met to run VPI PVA algorithms in a Docker container?", "actual_output": null, "expected_output": "To run VPI PVA algorithms in a Docker container, the same VPI version must be installed on the Docker host.", "context": [ "2.6. Compute Stack The following Deep Learning-related issues are noted in this release. Issue Description 4564075 To run VPI PVA algorithms in a docker container, the same VPI version has to be installed on the docker host. 2.7. Deepstream Issue Description 4325898 The pipeline gets stuck for multiu0000lesrc when using nvv4l2decoder. DS developers use the pipeline to run decode and infer jpeg images. NVIDIA Jetson Linux Release Notes RN_10698-r36.3 | 11" ], "source_file": "documents/Jetson_Linux_Release_Notes_r36.3.pdf" }

数据来源

数据来源于以下文档：

https://www.humanesociety.org/sites/default/files/docs/HSUS_ACFS-2023.pdf
https://www.whitehouse.gov/wp-content/uploads/2024/04/Global-Health-Security-Strategy-2024-1.pdf
https://www.armed-services.senate.gov/imo/media/doc/fy24_ndaa_conference_executive_summary1.pdf
https://dodcio.defense.gov/Portals/0/Documents/Library/(U)%202024-01-02%20DoD%20Cybersecurity%20Reciprocity%20Playbook.pdf
https://assets.ctfassets.net/oggad6svuzkv/2pIQQWQXPpxiKjjmhfpyWf/eb17b3f3c9c21f7abb05e68c7b1f3fcd/2023_annual_report.pdf
https://www.toyota.com/content/dam/toyota/brochures/pdf/2024/T-MMS-24Corolla.pdf
https://docs.nvidia.com/jetson/archives/r36.3/ReleaseNotes/Jetson_Linux_Release_Notes_r36.3.pdf
https://arxiv.org/pdf/2406.05370.pdf

文档本身可在 document_context.zip 中找到。

用途

该数据集已准备好用于 LLM-as-a-judge 评估，格式专门为与 DeepEval 兼容而设计。

数据集结构

数据集遵循 DeepEval 中 Test Case Goldens 的格式。

每个条目包含以下字段：

input：向 LLM 提出的问题
expected_output：问题的标准答案
context：包含或提供标准答案的文档来源

数据集创建

该数据集使用 DeepEval 的 Synthesizer 从源文档生成。

数据集经过以下精炼：

移除格式不佳或过于简单的问题条目
移除上下文中无意义的问题/答案对
修改问题以减少冗余并提高事实准确性

偏差、风险和限制

该数据集使用 GPT-4o 生成，因此带有模型和人工标注者的偏差。

数据集创建时使用的源文档不太可能出现在任何当前模型的训练数据中，但随着新模型的发布，这种情况可能会在几个月内发生变化。

搜集汇总

数据集介绍

构建方式

LFAI_RAG_qa_v1数据集的构建过程主要依赖于DeepEval的Synthesizer工具，该工具从多个公开文档中提取信息并生成初步的问题-答案对。随后，数据集经过人工筛选和优化，剔除格式不规范或过于简单的问题，并调整问题表述以提高准确性和简洁性。这一过程确保了数据集的高质量和实用性。

特点

LFAI_RAG_qa_v1数据集包含36个问题-答案-上下文三元组，专为基于LLM-as-a-judge的RAG评估设计。每个条目均包含输入问题、预期输出答案以及相关的上下文信息，这些上下文信息直接来源于原始文档。数据集的结构遵循DeepEval的Golden格式，确保了其与评估框架的高度兼容性。

使用方法

LFAI_RAG_qa_v1数据集可直接用于LLM-as-a-judge的评估任务，特别适用于DeepEval框架。用户可以通过加载数据集中的JSON文件，提取问题、预期答案和上下文信息，进而评估模型在特定文档检索和生成任务中的表现。数据集的设计旨在为RAG系统的性能评估提供标准化测试用例。

背景与挑战

背景概述

LFAI_RAG_qa_v1数据集由Defense Unicorns团队于2024年创建，旨在为LeapfrogAI项目提供基于检索增强生成（RAG）的问答评估基础。该数据集包含36个问答对及其相关上下文，主要用于支持LLM-as-a-judge模式的RAG评估。数据来源于多份公开文档，涵盖技术手册、政府报告及企业年报等，确保了数据的多样性和专业性。该数据集的构建采用了DeepEval的Synthesizer工具，并通过人工筛选和优化，提升了问题的准确性和简洁性。LFAI_RAG_qa_v1的发布为RAG系统的性能评估提供了标准化工具，推动了相关领域的研究进展。

当前挑战

LFAI_RAG_qa_v1数据集在构建和应用中面临多重挑战。首先，数据生成依赖于GPT-4o模型，可能引入模型本身的偏见，影响评估结果的客观性。其次，尽管数据来源于多样化的文档，但随着新模型的发布，这些文档可能被纳入训练数据，导致数据集的独特性和有效性逐渐减弱。此外，数据集的规模较小，仅包含36个问答对，可能限制了其在复杂场景下的泛化能力。最后，人工筛选和优化过程虽然提升了数据质量，但也增加了构建成本和时间开销，可能影响数据集的扩展性和更新频率。

常用场景

经典使用场景

LFAI_RAG_qa_v1数据集专为基于检索增强生成（RAG）的问答评估设计，适用于大型语言模型（LLM）的评估场景。该数据集通过提供36个问题/答案/上下文条目，支持LLM-as-a-judge的评估框架，特别适用于DeepEval平台。其经典使用场景包括对LLM在特定文档上下文中的问答能力进行精准评估，确保模型能够准确理解并生成符合预期的答案。

解决学术问题

LFAI_RAG_qa_v1数据集解决了LLM在RAG任务中评估标准不统一的问题。通过提供标准化的问答对及其上下文，该数据集为研究者提供了一个可靠的基准，用于评估模型在特定文档中的信息检索和生成能力。这不仅提升了评估的科学性，还为模型优化提供了明确的方向，推动了LLM在RAG任务中的性能提升。

衍生相关工作

LFAI_RAG_qa_v1数据集的发布催生了一系列相关研究工作。例如，基于该数据集的评估框架DeepEval进一步优化了LLM-as-a-judge的评估流程。此外，许多研究团队利用该数据集开发了新的RAG模型优化方法，如上下文增强技术和多文档检索策略。这些工作不仅扩展了数据集的应用范围，还为LLM在复杂任务中的性能提升提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集