five

DRAGONBall|RAG模型评估数据集|多领域知识应用数据集

收藏
arXiv2024-08-02 更新2024-08-06 收录
RAG模型评估
多领域知识应用
下载链接:
http://arxiv.org/abs/2408.01262v1
下载链接
链接失效反馈
资源简介:
DRAGONBall数据集由清华大学等机构创建,是一个多领域、多语言的评估数据集,专门用于测试RAG模型在金融、法律和医疗领域的知识使用能力。该数据集包含6711个问题,涵盖20个金融领域、10个法律领域和19个医疗类别,文本内容包括中文和英文。数据集的创建过程涉及从种子文档中总结模式,生成多样化的文档,并根据文档和配置构建问题-答案对,旨在通过全面的评估框架提高RAG模型在特定领域的表现。
提供机构:
清华大学, 北京师范大学, 中国科学院大学, 东北大学
创建时间:
2024-08-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
DRAGONBall数据集的构建采用了RAGEval框架,该框架旨在自动生成针对不同场景的RAG评估数据集,以评估不同场景下LLMs的知识使用能力。首先,RAGEval从种子文档中总结出模式,然后将配置应用于生成多样化的文档,并依据文章和配置构建问答对。这一过程强调了事实信息的利用,并通过增强答案估计的鲁棒性来提高评估过程的准确性和可靠性。
使用方法
使用DRAGONBall数据集时,研究者可以通过RAGEval框架生成的问答对来评估RAG系统的性能。该数据集提供了多样化的场景和领域,可以帮助研究者测试RAG系统在不同场景下的知识使用能力。此外,DRAGONBall数据集还提供了中文和英文文本,方便进行多语言研究。研究者可以根据自己的需求选择相应的场景和领域进行评估,并通过RAGEval框架提供的评估指标来衡量RAG系统的性能。
背景与挑战
背景概述
在自然语言处理(NLP)领域,大型语言模型(LLMs)在理解和生成自然语言方面取得了显著进展。然而,LLMs仍然面临幻觉问题,导致在生成回答时出现事实性错误。为了缓解这一问题,许多研究人员提倡使用检索增强生成(RAG)模型来帮助LLMs生成更准确的回答。然而,评估RAG模型的有效性仍然是一个挑战。现有的RAG基准主要集中在评估LLMs在回答一般领域问题时的事实正确性,而无法评估RAG系统在处理不同垂直领域数据时的有效性。为了解决这个问题,本文介绍了RAGEval,一个自动生成评估数据集的框架,用于评估不同场景下LLMs的知识使用能力。RAGEval从种子文档中总结一个模式,将配置应用于生成多样化的文档,并根据文章和配置构建问答对。本文提出了三个新颖的指标,即完整性、幻觉和无关性,以仔细评估LLMs生成的回答。通过在垂直领域中对RAG模型进行基准测试,RAGEval能够更好地评估LLMs的知识使用能力,从而避免了现有QA数据集中关于知识来源的混淆,即回答问题时的知识来源是来自参数化内存还是检索。
当前挑战
构建RAG评估数据集时,收集和注释垂直文档的成本非常高,因为这些文档具有敏感性,并且需要专业知识进行分析。此外,与开放领域问答任务相比,垂直领域的回答往往更加全面和详细,这给评估带来了复杂性。为了解决这些挑战,RAGEval采用了一种“模式-配置-文档-问答-关键点”的流程,强调利用事实信息并增强答案估计的鲁棒性,以提高评估过程的准确性和可靠性。然而,现有的评估指标缺乏评估RAG生成能力的细微差别。因此,RAGEval提出了三个关键点评估指标和两个适应检索指标,旨在提供对RAG流程的更全面评估。
常用场景
经典使用场景
在构建和维护垂直领域的知识图谱时,DRAGONBall数据集被广泛使用。该数据集通过自动生成评价数据集,能够评估不同场景下LLMs的知识使用能力,为RAG系统的有效性和可靠性提供有力支持。
解决学术问题
DRAGONBall数据集解决了现有RAG基准在评估LLMs处理不同垂直领域数据时的有效性问题。通过构建场景特定的RAG评估案例,DRAGONBall数据集能够更好地评估LLMs的知识使用能力,从而提高LLMs在特定领域的准确性和可靠性。
实际应用
DRAGONBall数据集在实际应用中,可以用于评估和优化RAG系统在不同垂直领域的性能。例如,在金融领域,DRAGONBall数据集可以帮助评估RAG系统在处理财务报告、投资分析等任务中的准确性;在医疗领域,DRAGONBall数据集可以帮助评估RAG系统在处理病历、诊断报告等任务中的可靠性。
数据集最近研究
最新研究方向
DRAGONBall数据集的最新研究方向主要集中在评估检索增强生成(RAG)系统在不同场景下的知识使用能力。该数据集通过自动生成特定场景的评估数据集,帮助研究者更好地理解RAG模型在不同领域中的表现。DRAGONBall数据集通过收集特定领域的种子文档,总结出模式,然后根据这些模式生成多样化的文档,并构建问答对。此外,该数据集还提出了三个新颖的评估指标:完整性、幻觉和无关性,用于评估LLMs生成的回答的质量。通过在垂直领域中对RAG模型进行基准测试,DRAGONBall数据集能够更好地评估LLMs的知识使用能力,避免了现有QA数据集中关于知识来源的混淆问题。
相关研究论文
  • 1
    RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework清华大学, 北京师范大学, 中国科学院大学, 东北大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录