five

CRAG|问答系统数据集|知识增强数据集

收藏
arXiv2024-06-07 更新2024-06-21 收录
问答系统
知识增强
下载链接:
https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024
下载链接
链接失效反馈
资源简介:
CRAG是由元现实实验室创建的综合性RAG基准数据集,包含4,409个问题-答案对,旨在解决大型语言模型在知识缺乏方面的不足。数据集涵盖金融、体育、音乐、电影和开放领域五大领域,以及从简单事实到复杂多跳问题的八种问题类型。CRAG通过模拟网络和知识图谱搜索的模拟API,反映了从流行到长尾实体的多样性和时间动态性。数据集的创建过程参考了智能助手用例,确保问题的真实性,并通过手动验证确保可靠性。CRAG的应用领域广泛,旨在推动RAG解决方案和通用问答系统的发展,特别是在解决动态性、低流行度或高复杂度事实的问题上。
提供机构:
元现实实验室
创建时间:
2024-06-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
CRAG数据集的构建方式旨在解决现有数据集在模拟真实世界问答任务多样性和动态性方面的不足。该数据集包含4,409个问答对和模拟API,以模拟网络和知识图谱搜索。数据集涵盖五个领域和八种问题类型,反映了从流行到长尾的各种实体流行度和从几年到几秒的时间动态性。CRAG数据集的构建方法结合了从知识图谱和网页内容中生成的问答对,以及模拟API来模拟从网络和知识图谱中检索信息的过程。
特点
CRAG数据集的特点在于其全面性和多样性。它涵盖了五个领域和八种问题类型,包括简单事实问题、条件问题、比较问题、聚合问题、多跳问题、集合查询、后处理密集型问题和虚假前提问题。数据集还包含了模拟API,以模拟从网络和知识图谱中检索信息的过程。此外,CRAG数据集还提供了模拟的知识图谱和API,以及来自真实世界搜索引擎的50个完整的HTML页面,以模拟实际的网络搜索结果。
使用方法
使用CRAG数据集的方法包括三个任务:网络检索摘要、知识图谱和网页检索增强以及端到端RAG。在第一个任务中,数据集为每个问题提供最多五个网页。第二个任务提供了模拟API来访问模拟知识图谱中的信息。第三个任务提供了50个网页作为候选检索结果,以测试RAG系统对检索结果进行排名的能力。数据集还提供了自动评估机制,以便快速评估和迭代RAG系统的性能。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLM)在问答(QA)任务中取得了显著进展,但仍然存在知识不足和幻觉生成的问题。为了解决这些问题,检索增强生成(RAG)作为一种新兴技术应运而生,它通过检索外部知识库来补充LLM的知识缺陷。CRAG(Comprehensive RAG Benchmark)数据集由Meta Reality Labs的研究人员创建,旨在提供一个全面的RAG评估基准。该数据集包含4,409个问答对和模拟API,以模拟网络和知识图谱(KG)搜索。CRAG涵盖了五个领域和八个问题类别,反映了实体流行度的多样性和时间动态性。CRAG的发布为RAG解决方案和通用QA解决方案的研究提供了宝贵的资源。
当前挑战
CRAG数据集面临的挑战主要包括:1)解决领域问题:CRAG旨在解决LLM在缺乏知识时生成幻觉的问题,以及如何有效地检索和整合外部知识来生成准确答案。2)构建过程中的挑战:CRAG数据集的构建过程中需要解决如何模拟真实世界的搜索结果和知识图谱,以及如何设计有效的评估机制来衡量RAG系统的性能。此外,CRAG还需要解决如何处理具有高动态性、低流行度或高复杂性的事实性问题的挑战。
常用场景
经典使用场景
CRAG数据集,即Comprehensive RAG Benchmark,主要用于评估和提升Retrieval-Augmented Generation (RAG)系统的性能。RAG系统通过从外部知识库或网络检索相关信息来增强大型语言模型(LLM)的知识储备,从而提高问答的准确性和可靠性。CRAG数据集包含4,409个问答对,模拟真实世界的网络和知识图谱(KG)搜索,涵盖了五个领域和八个问题类别,反映了从热门到长尾的实体流行度以及从几年到几秒的时间动态性。CRAG数据集为研究者提供了一个平台,用于测试和改进RAG系统,并推动问答系统向更加准确和可信的方向发展。
衍生相关工作
CRAG数据集的引入衍生了一系列相关的经典工作,包括但不限于:1. 提出了新的RAG系统评估指标和方法,以更全面地评估RAG系统的性能;2. 设计了新的RAG系统架构,以提高RAG系统在处理复杂问答任务时的准确性和效率;3. 提出了新的知识图谱问答技术,以提高知识图谱问答系统的准确性和可靠性。CRAG数据集的引入为相关领域的研究提供了重要的数据和平台支持,推动了RAG和知识图谱问答技术的研究和应用。
数据集最近研究
最新研究方向
CRAG数据集的最新研究方向主要集中在如何解决大型语言模型在知识获取方面的不足,特别是在问答任务中的事实准确性问题。该数据集旨在填补现有RAG数据集在模拟现实世界问答任务多样性和动态性方面的不足。CRAG数据集通过包含4,409个问答对和模拟API来模拟网络和知识图谱搜索,涵盖了五个领域和八个问题类别,反映了从流行到长尾的实体流行度和从几年到几秒的时间动态性。研究表明,即使在CRAG数据集上,最先进的LLM也只能达到34%的准确率,而简单的RAG方法只能将准确率提高到44%。这表明,RAG技术在提高问答系统的事实准确性和减少幻觉方面仍然面临挑战。CRAG数据集还揭示了在回答涉及更高动态性、更低流行度或更高复杂性的事实问题时,准确率更低,这为未来的研究方向提供了线索。CRAG数据集的推出为KDD Cup 2024挑战赛奠定了基础,吸引了数千名参赛者和提交作品,展示了该数据集在推动RAG和通用问答解决方案研究中的重要作用。
相关研究论文
  • 1
    CRAG -- Comprehensive RAG Benchmark元现实实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录