five

DomainRAG|领域特定检索数据集|生成模型评估数据集

收藏
arXiv2024-06-09 更新2024-06-17 收录
领域特定检索
生成模型评估
下载链接:
https://github.com/ShootingWong/DomainRAG
下载链接
链接失效反馈
资源简介:
DomainRAG是一个专为评估领域特定检索增强生成模型而设计的中文基准数据集,由中国人民大学高瓴人工智能学院创建。该数据集包含七个子数据集,分别针对对话式QA、结构化QA、忠实QA、时间敏感QA、噪声QA和多文档QA等能力进行评估。数据来源于中国某大学的招生系统网站,经官方授权采集。创建过程中,数据集通过ChatGPT等生成模型生成,并经过人工校正。该数据集旨在解决大型语言模型在特定领域应用中知识覆盖不全、实时更新困难等问题,特别是在需要专业知识的场景中。
提供机构:
高瓴人工智能学院
创建时间:
2024-06-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
DomainRAG数据集的构建基于中国某大学的招生系统,通过合法授权爬取了招生官网的网页内容,不仅提取了文本信息,还保留了原始的HTML结构,以便构建结构化问答数据集。文本内容被分割为256长度的滑动窗口,重叠部分为128,最终形成了包含1,686个网页和14,406个段落的文本和HTML语料库。数据集的生成首先由强大的生成模型(如ChatGPT或GPT-4)生成初步的问答对,随后通过人工校正确保数据质量。数据集包括提取式问答、对话式问答、结构化问答、忠实性问答、噪声问答、时间敏感问答和多文档问答等多个子数据集,每个子数据集针对RAG模型的不同能力进行评估。
特点
DomainRAG数据集的特点在于其专注于领域特定的问答任务,涵盖了对话理解、结构化信息分析、外部知识忠实性、噪声过滤、时间敏感问题处理以及多文档交互理解等六个关键能力。数据集通过模拟复杂的对话场景、结构化信息的解析、噪声信息的处理以及多文档信息的整合,全面评估了RAG模型在领域特定场景中的表现。此外,数据集还通过引入时间敏感问题和多文档交互问题,进一步增强了其复杂性和实用性。
使用方法
DomainRAG数据集可用于评估和训练RAG模型在领域特定场景中的表现。用户可以通过该数据集测试模型在对话理解、结构化信息分析、噪声过滤、时间敏感问题处理以及多文档交互等方面的能力。具体使用时,可以将数据集分为训练集和测试集,利用提取式问答、对话式问答、结构化问答等子数据集进行模型训练和评估。此外,数据集还提供了HTML和纯文本两种格式的语料,用户可以根据需求选择不同的输入格式进行实验,以评估模型在处理结构化信息和纯文本信息时的表现。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著进展,但其固有的局限性,如幻觉现象和难以实时更新知识,限制了其在特定领域中的应用。为了解决这些问题,检索增强生成(RAG)技术应运而生,通过从信息检索系统中获取外部知识来增强模型的生成能力。然而,现有研究多依赖于通用知识源(如维基百科)来评估RAG模型,未能充分考察其在特定领域中的表现。为此,中国人民大学高瓴人工智能学院的研究团队于2024年提出了DomainRAG数据集,专注于评估RAG模型在高校招生这一特定领域中的表现。该数据集通过模拟复杂的对话场景、结构化信息分析、外部知识忠实性等多个维度,全面评估RAG模型在特定领域中的能力,为未来RAG模型的改进提供了重要参考。
当前挑战
DomainRAG数据集的构建与评估面临多重挑战。首先,如何在特定领域中有效利用外部知识,解决LLMs在专家知识覆盖不足的问题,是RAG模型面临的核心挑战。其次,数据集的构建过程中,如何处理复杂的对话历史、结构化信息的解析、以及多文档交互等问题,增加了模型的复杂性。此外,时间敏感性问题和噪声信息的处理也对RAG模型的鲁棒性提出了更高要求。最后,如何在保证外部知识忠实性的同时,避免模型过度依赖内部知识,是RAG模型在实际应用中需要解决的关键问题。这些挑战不仅反映了RAG模型在特定领域中的局限性,也为未来的研究指明了改进方向。
常用场景
经典使用场景
DomainRAG数据集的经典使用场景主要集中在特定领域的检索增强生成(RAG)任务中,特别是在大学招生系统这一特定领域。该数据集通过模拟复杂的对话场景、结构化信息分析、外部知识的忠实性、去噪处理、时间敏感问题的解决以及多文档交互的理解,全面评估了RAG模型在这些能力上的表现。例如,在招生咨询中,模型需要根据用户的多次提问历史理解其意图,并从多个文档中提取相关信息,生成准确的回答。
衍生相关工作
DomainRAG数据集的提出激发了大量相关研究,特别是在检索增强生成(RAG)模型的改进方面。相关工作包括优化检索模型的性能、设计更精细的推理链(CoTs)、联合训练检索模型和语言模型等。此外,该数据集还推动了对RAG模型在多文档交互、时间敏感问题处理以及结构化信息分析等方面的深入研究,为构建更强大的RAG系统提供了理论和实践基础。
数据集最近研究
最新研究方向
近年来,随着大型语言模型(LLMs)在自然语言处理领域的广泛应用,检索增强生成(RAG)技术逐渐成为解决LLMs在领域特定应用中知识不足问题的关键手段。DomainRAG数据集聚焦于高校招生这一领域特定场景,旨在评估RAG模型在处理复杂对话、结构化信息分析、外部知识忠实性、噪声过滤、时间敏感问题解决以及多文档交互等方面的能力。该数据集通过构建多个子数据集,全面评估RAG模型在领域特定任务中的表现,揭示了现有LLMs在处理领域特定问题时的局限性,并指出了未来研究的方向,特别是在理解对话历史、分析结构化信息、处理多文档交互等方面的改进空间。DomainRAG的提出不仅为RAG模型在领域特定场景中的应用提供了基准,还为未来研究提供了丰富的实验数据和评估框架,推动了RAG技术在专家领域中的进一步发展。
相关研究论文
  • 1
    DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation高瓴人工智能学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国高考录取分数线数据

  高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。  CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。

CnOpenData 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

GHCN

GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录