five

DomainRAG|领域特定检索数据集|生成模型评估数据集

收藏
arXiv2024-06-09 更新2024-06-17 收录
领域特定检索
生成模型评估
下载链接:
https://github.com/ShootingWong/DomainRAG
下载链接
链接失效反馈
资源简介:
DomainRAG是一个专为评估领域特定检索增强生成模型而设计的中文基准数据集,由中国人民大学高瓴人工智能学院创建。该数据集包含七个子数据集,分别针对对话式QA、结构化QA、忠实QA、时间敏感QA、噪声QA和多文档QA等能力进行评估。数据来源于中国某大学的招生系统网站,经官方授权采集。创建过程中,数据集通过ChatGPT等生成模型生成,并经过人工校正。该数据集旨在解决大型语言模型在特定领域应用中知识覆盖不全、实时更新困难等问题,特别是在需要专业知识的场景中。
提供机构:
高瓴人工智能学院
创建时间:
2024-06-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
DomainRAG数据集的构建基于中国某大学的招生系统,通过合法授权爬取了招生官网的网页内容,不仅提取了文本信息,还保留了原始的HTML结构,以便构建结构化问答数据集。文本内容被分割为256长度的滑动窗口,重叠部分为128,最终形成了包含1,686个网页和14,406个段落的文本和HTML语料库。数据集的生成首先由强大的生成模型(如ChatGPT或GPT-4)生成初步的问答对,随后通过人工校正确保数据质量。数据集包括提取式问答、对话式问答、结构化问答、忠实性问答、噪声问答、时间敏感问答和多文档问答等多个子数据集,每个子数据集针对RAG模型的不同能力进行评估。
特点
DomainRAG数据集的特点在于其专注于领域特定的问答任务,涵盖了对话理解、结构化信息分析、外部知识忠实性、噪声过滤、时间敏感问题处理以及多文档交互理解等六个关键能力。数据集通过模拟复杂的对话场景、结构化信息的解析、噪声信息的处理以及多文档信息的整合,全面评估了RAG模型在领域特定场景中的表现。此外,数据集还通过引入时间敏感问题和多文档交互问题,进一步增强了其复杂性和实用性。
使用方法
DomainRAG数据集可用于评估和训练RAG模型在领域特定场景中的表现。用户可以通过该数据集测试模型在对话理解、结构化信息分析、噪声过滤、时间敏感问题处理以及多文档交互等方面的能力。具体使用时,可以将数据集分为训练集和测试集,利用提取式问答、对话式问答、结构化问答等子数据集进行模型训练和评估。此外,数据集还提供了HTML和纯文本两种格式的语料,用户可以根据需求选择不同的输入格式进行实验,以评估模型在处理结构化信息和纯文本信息时的表现。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著进展,但其固有的局限性,如幻觉现象和难以实时更新知识,限制了其在特定领域中的应用。为了解决这些问题,检索增强生成(RAG)技术应运而生,通过从信息检索系统中获取外部知识来增强模型的生成能力。然而,现有研究多依赖于通用知识源(如维基百科)来评估RAG模型,未能充分考察其在特定领域中的表现。为此,中国人民大学高瓴人工智能学院的研究团队于2024年提出了DomainRAG数据集,专注于评估RAG模型在高校招生这一特定领域中的表现。该数据集通过模拟复杂的对话场景、结构化信息分析、外部知识忠实性等多个维度,全面评估RAG模型在特定领域中的能力,为未来RAG模型的改进提供了重要参考。
当前挑战
DomainRAG数据集的构建与评估面临多重挑战。首先,如何在特定领域中有效利用外部知识,解决LLMs在专家知识覆盖不足的问题,是RAG模型面临的核心挑战。其次,数据集的构建过程中,如何处理复杂的对话历史、结构化信息的解析、以及多文档交互等问题,增加了模型的复杂性。此外,时间敏感性问题和噪声信息的处理也对RAG模型的鲁棒性提出了更高要求。最后,如何在保证外部知识忠实性的同时,避免模型过度依赖内部知识,是RAG模型在实际应用中需要解决的关键问题。这些挑战不仅反映了RAG模型在特定领域中的局限性,也为未来的研究指明了改进方向。
常用场景
经典使用场景
DomainRAG数据集的经典使用场景主要集中在特定领域的检索增强生成(RAG)任务中,特别是在大学招生系统这一特定领域。该数据集通过模拟复杂的对话场景、结构化信息分析、外部知识的忠实性、去噪处理、时间敏感问题的解决以及多文档交互的理解,全面评估了RAG模型在这些能力上的表现。例如,在招生咨询中,模型需要根据用户的多次提问历史理解其意图,并从多个文档中提取相关信息,生成准确的回答。
衍生相关工作
DomainRAG数据集的提出激发了大量相关研究,特别是在检索增强生成(RAG)模型的改进方面。相关工作包括优化检索模型的性能、设计更精细的推理链(CoTs)、联合训练检索模型和语言模型等。此外,该数据集还推动了对RAG模型在多文档交互、时间敏感问题处理以及结构化信息分析等方面的深入研究,为构建更强大的RAG系统提供了理论和实践基础。
数据集最近研究
最新研究方向
近年来,随着大型语言模型(LLMs)在自然语言处理领域的广泛应用,检索增强生成(RAG)技术逐渐成为解决LLMs在领域特定应用中知识不足问题的关键手段。DomainRAG数据集聚焦于高校招生这一领域特定场景,旨在评估RAG模型在处理复杂对话、结构化信息分析、外部知识忠实性、噪声过滤、时间敏感问题解决以及多文档交互等方面的能力。该数据集通过构建多个子数据集,全面评估RAG模型在领域特定任务中的表现,揭示了现有LLMs在处理领域特定问题时的局限性,并指出了未来研究的方向,特别是在理解对话历史、分析结构化信息、处理多文档交互等方面的改进空间。DomainRAG的提出不仅为RAG模型在领域特定场景中的应用提供了基准,还为未来研究提供了丰富的实验数据和评估框架,推动了RAG技术在专家领域中的进一步发展。
相关研究论文
  • 1
    DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation高瓴人工智能学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录