wikirag
收藏github2024-02-26 更新2024-05-31 收录
下载链接:
https://github.com/TKenneweg/RAG_Dataset_Gen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过从Wikipedia抓取文章并生成问题来创建的,用于评估和设置检索增强生成系统。数据集包括文章标题、内容、问题和答案,并进行了真实性和相关性的评估。
This dataset was created by scraping articles from Wikipedia and generating questions, designed for evaluating and configuring retrieval-augmented generation systems. The dataset includes article titles, content, questions, and answers, with assessments for authenticity and relevance.
创建时间:
2024-02-26
原始信息汇总
数据集概述
数据集创建
- 数据集名称: wikirag
- 数据来源: 从Wikipedia抓取文章
- 数据处理步骤:
- WikiScrapper 类负责抓取和过滤文章,以及生成问题。
- 抓取200篇文章并保存为
A_r。 - 过滤日期信息,输出为
A_d。 - 生成问题并添加到文件,输出为
A_f。
- 抓取200篇文章并保存为
- Chatbot 类实现RAG系统,目前实现的是Naive RAG。
- Evaluator 类用于评估问题/文章-答案对的真实性和相关性。
- WikiScrapper 类负责抓取和过滤文章,以及生成问题。
数据集格式
- 所有
.pkl文件包含一个字典列表,字典中可能包含的字段有:"question", "answer", "title", "content", "url"。
数据集评估
- 使用
Evaluator类评估数据集中的问题和答案对,评估指标包括真实性和相关性。 - 评估结果将添加到原始数据集中,并保存为带有
_scored后缀的新.pkl文件。
数据集存储
- 数据集存储在名为
wikirag的文件夹中。 - 使用
embedd.py将数据集转换为chroma向量数据库,便于RAG系统的处理。
数据集使用
- 通过
view.py文件可以查看生成的数据文件。 - 通过
imggen.py文件可以生成用于论文展示的直方图。
搜集汇总
数据集介绍

构建方式
wikirag数据集的构建过程基于Wikipedia文章的自动抓取与处理。通过WikiScrapper类,系统从Wikipedia中抓取文章,并对其进行过滤与问题生成。抓取的文章首先保存为A_r.pkl文件,随后根据日期进行过滤生成A_d.pkl文件,再通过GPT模型生成问题并保存为A_f.pkl文件。整个过程确保了数据集的多样性与时效性,同时避免了与现有大语言模型训练数据的重复。
特点
wikirag数据集的特点在于其专注于检索增强生成(RAG)系统的评估与优化。数据集包含从Wikipedia抓取的文章及其生成的问题与答案,涵盖了丰富的内容领域。每个数据条目均包含标题、内容、URL、问题及回答等字段,便于进行多维度分析。此外,数据集还提供了对回答的真实性与相关性的评估,为RAG系统的性能优化提供了有力支持。
使用方法
使用wikirag数据集时,首先需通过embedd.py脚本将Wikipedia数据集转换为Chroma向量数据库,以便于RAG系统的检索。随后,通过Chatbot类实现RAG系统,并使用genAnswers函数生成回答。生成的回答将保存为带有时间戳的pkl文件,便于后续分析。最后,通过Evaluator类对回答的真实性与相关性进行评估,生成带有评分的数据文件。整个过程可通过main.py文件中的步骤进行自动化操作,确保数据集的完整性与一致性。
背景与挑战
背景概述
wikirag数据集由研究人员在2024年初创建,旨在支持检索增强生成系统(RAG)的研究与开发。该数据集的核心研究问题在于如何从维基百科中自动生成高质量的问题-答案对,并利用这些数据评估不同RAG系统的性能。通过结合维基百科的丰富信息与大型语言模型(LLM)的生成能力,wikirag为RAG系统的自动数据集创建、评估以及布尔代理设置提供了重要支持。该数据集的发布不仅推动了RAG技术的进一步发展,还为相关领域的研究人员提供了一个标准化的评估工具,具有广泛的应用前景。
当前挑战
wikirag数据集在构建与应用过程中面临多重挑战。首先,从维基百科中提取并生成高质量的问题-答案对需要克服信息冗余与噪声问题,确保数据的准确性与相关性。其次,RAG系统的评估依赖于对生成答案的真实性与相关性的精确度量,这对评估方法的鲁棒性提出了较高要求。此外,数据集的构建过程涉及复杂的自动化流程,包括文章抓取、问题生成、答案生成与评估等环节,每个环节的实现均需解决技术难题。最后,如何将数据集高效地转化为向量数据库以支持RAG系统的检索功能,也是构建过程中需要解决的关键问题。
常用场景
经典使用场景
在自然语言处理领域,wikirag数据集被广泛应用于检索增强生成(RAG)系统的开发和评估。通过从维基百科抓取文章并生成相关问题,该数据集为研究者提供了一个标准化的测试平台,用于验证不同RAG系统在问答任务中的表现。其经典使用场景包括自动生成问题、评估答案的真实性和相关性,以及构建向量数据库以支持检索过程。
实际应用
在实际应用中,wikirag数据集被用于构建智能问答系统和知识库增强工具。例如,企业可以利用该数据集训练RAG系统,以自动回答客户问题或从大量文档中提取关键信息。此外,该数据集还可用于开发教育领域的智能辅导系统,帮助学生快速获取准确的知识点。
衍生相关工作
基于wikirag数据集,研究者们开发了多种改进的RAG系统和评估方法。例如,一些工作专注于优化检索算法以提高答案的准确性,另一些则探索了多模态数据融合技术以增强系统的理解能力。此外,该数据集还催生了一系列关于自动数据集生成和评估框架的研究,为未来的RAG系统开发提供了重要参考。
以上内容由遇见数据集搜集并总结生成



