DomainRAG

Name: DomainRAG
Creator: 高瓴人工智能学院
Published: 2024-06-09 13:33:51
License: 暂无描述

arXiv2024-06-09 更新2024-06-17 收录

下载链接：

https://github.com/ShootingWong/DomainRAG

下载链接

链接失效反馈

官方服务：

资源简介：

DomainRAG是一个专为评估领域特定检索增强生成模型而设计的中文基准数据集，由中国人民大学高瓴人工智能学院创建。该数据集包含七个子数据集，分别针对对话式QA、结构化QA、忠实QA、时间敏感QA、噪声QA和多文档QA等能力进行评估。数据来源于中国某大学的招生系统网站，经官方授权采集。创建过程中，数据集通过ChatGPT等生成模型生成，并经过人工校正。该数据集旨在解决大型语言模型在特定领域应用中知识覆盖不全、实时更新困难等问题，特别是在需要专业知识的场景中。

DomainRAG is a Chinese benchmark dataset specifically designed for evaluating domain-specific retrieval-augmented generation (RAG) models, developed by the Gaoling School of Artificial Intelligence at Renmin University of China. The dataset comprises seven sub-datasets that evaluate capabilities including conversational QA, structured QA, faithful QA, time-sensitive QA, noisy QA, and multi-document QA. The data was collected from the admission system website of a Chinese university with official authorization. During its development, the dataset was generated using generative models such as ChatGPT and underwent manual correction. This dataset aims to address issues like incomplete knowledge coverage and difficulties in real-time updates faced by large language models (LLMs) in domain-specific applications, particularly in scenarios requiring professional expertise.

提供机构：

高瓴人工智能学院

创建时间：

2024-06-09

搜集汇总

数据集介绍

构建方式

DomainRAG数据集的构建基于中国某大学的招生系统，通过合法授权爬取了招生官网的网页内容，不仅提取了文本信息，还保留了原始的HTML结构，以便构建结构化问答数据集。文本内容被分割为256长度的滑动窗口，重叠部分为128，最终形成了包含1,686个网页和14,406个段落的文本和HTML语料库。数据集的生成首先由强大的生成模型（如ChatGPT或GPT-4）生成初步的问答对，随后通过人工校正确保数据质量。数据集包括提取式问答、对话式问答、结构化问答、忠实性问答、噪声问答、时间敏感问答和多文档问答等多个子数据集，每个子数据集针对RAG模型的不同能力进行评估。

特点

DomainRAG数据集的特点在于其专注于领域特定的问答任务，涵盖了对话理解、结构化信息分析、外部知识忠实性、噪声过滤、时间敏感问题处理以及多文档交互理解等六个关键能力。数据集通过模拟复杂的对话场景、结构化信息的解析、噪声信息的处理以及多文档信息的整合，全面评估了RAG模型在领域特定场景中的表现。此外，数据集还通过引入时间敏感问题和多文档交互问题，进一步增强了其复杂性和实用性。

使用方法

DomainRAG数据集可用于评估和训练RAG模型在领域特定场景中的表现。用户可以通过该数据集测试模型在对话理解、结构化信息分析、噪声过滤、时间敏感问题处理以及多文档交互等方面的能力。具体使用时，可以将数据集分为训练集和测试集，利用提取式问答、对话式问答、结构化问答等子数据集进行模型训练和评估。此外，数据集还提供了HTML和纯文本两种格式的语料，用户可以根据需求选择不同的输入格式进行实验，以评估模型在处理结构化信息和纯文本信息时的表现。

背景与挑战

背景概述

近年来，大型语言模型（LLMs）在自然语言处理领域取得了显著进展，但其固有的局限性，如幻觉现象和难以实时更新知识，限制了其在特定领域中的应用。为了解决这些问题，检索增强生成（RAG）技术应运而生，通过从信息检索系统中获取外部知识来增强模型的生成能力。然而，现有研究多依赖于通用知识源（如维基百科）来评估RAG模型，未能充分考察其在特定领域中的表现。为此，中国人民大学高瓴人工智能学院的研究团队于2024年提出了DomainRAG数据集，专注于评估RAG模型在高校招生这一特定领域中的表现。该数据集通过模拟复杂的对话场景、结构化信息分析、外部知识忠实性等多个维度，全面评估RAG模型在特定领域中的能力，为未来RAG模型的改进提供了重要参考。

当前挑战

DomainRAG数据集的构建与评估面临多重挑战。首先，如何在特定领域中有效利用外部知识，解决LLMs在专家知识覆盖不足的问题，是RAG模型面临的核心挑战。其次，数据集的构建过程中，如何处理复杂的对话历史、结构化信息的解析、以及多文档交互等问题，增加了模型的复杂性。此外，时间敏感性问题和噪声信息的处理也对RAG模型的鲁棒性提出了更高要求。最后，如何在保证外部知识忠实性的同时，避免模型过度依赖内部知识，是RAG模型在实际应用中需要解决的关键问题。这些挑战不仅反映了RAG模型在特定领域中的局限性，也为未来的研究指明了改进方向。

常用场景

经典使用场景

DomainRAG数据集的经典使用场景主要集中在特定领域的检索增强生成（RAG）任务中，特别是在大学招生系统这一特定领域。该数据集通过模拟复杂的对话场景、结构化信息分析、外部知识的忠实性、去噪处理、时间敏感问题的解决以及多文档交互的理解，全面评估了RAG模型在这些能力上的表现。例如，在招生咨询中，模型需要根据用户的多次提问历史理解其意图，并从多个文档中提取相关信息，生成准确的回答。

衍生相关工作

DomainRAG数据集的提出激发了大量相关研究，特别是在检索增强生成（RAG）模型的改进方面。相关工作包括优化检索模型的性能、设计更精细的推理链（CoTs）、联合训练检索模型和语言模型等。此外，该数据集还推动了对RAG模型在多文档交互、时间敏感问题处理以及结构化信息分析等方面的深入研究，为构建更强大的RAG系统提供了理论和实践基础。

数据集最近研究