CSE_course_RAG
收藏CSE Course RAG 数据集概述
数据集基本信息
- 数据集名称: CSE Course RAG Dataset
- 作者: Nguyen Quoc Hieu
- 发布年份: 2025
- 发布平台: HuggingFace
- 许可证: MIT License
- 版权: © 2025 Nguyen Quoc Hieu, Ho Chi Minh City University of Technology
数据集目的与内容
这是一个用于检索增强生成(RAG)系统的综合性数据集,包含来自胡志明市理工大学(HCMUT)的计算机科学与工程(CSE)课程材料。该数据集旨在支持教育AI系统的研究与开发,特别是问答和信息检索应用。
数据集结构与组成
数据集包含以下目录和内容:
indices/: 用于语义搜索的预构建FAISS索引processed/: 已处理的课程数据(JSON格式)raw/: 原始PDF文档converted/: 已转换的页面图像(OCR就绪)data/: 额外的已处理数据scratch/: 临时处理文件
技术规格
- 任务类别: 问答、信息检索、文本生成
- 语言: 英语
- 标签: RAG、检索增强生成、教育、课程材料、FAISS、嵌入、CSE、计算机科学
- 规模类别: 1K<n<10K
- 包含课程: 多个CSE课程
- 内容类型: 每门课程的教学大纲和材料文档、预处理的文本块与嵌入、用于快速检索的FAISS索引
数据处理流程
数据经过以下处理流程:
- 转换: PDF/Office文档 → 页面图像
- OCR: 使用PaddleOCR进行文本提取
- 解析: 结构化JSON提取(教学大纲和材料解析器)
- 分块: 带重叠的文本分块
- 嵌入: 使用句子转换器生成嵌入
- 索引: FAISS索引构建
数据字段说明
已处理数据(JSON)字段:
course: 课程名称course_id: 课程代码schema_version: 数据模式版本slides: 幻灯片对象数组,包含:page_index: 页码chapter_num: 章节号source_file: 源文件路径metadata: 处理元数据raw_text: 提取的OCR文本
FAISS索引:
- 用于语义搜索的向量嵌入
- 用于块检索的元数据映射
- 特定于课程的索引
支持的任务
- 问答: 使用检索到的上下文回答课程内容相关问题
- 信息检索: 对课程材料进行语义搜索
- 文本生成: 基于检索到的课程内容生成答案
数据集统计与评估
数据集包含:
- 涵盖各种计算机科学主题的多个CSE课程
- 包含课程信息、评分政策、先决条件的结构化教学大纲数据
- 包括讲义幻灯片和章节内容的课程材料
- 使用句子转换器模型预计算的嵌入
- 为快速相似性搜索优化的FAISS索引
评估指标:
- 答案忠实度: 通过查询重写提高+21.1%
- 顶部块分数: 在重新排序器置信度中提高+80.9%
- 查询-答案相似性: 查询与答案之间的语义对齐
- 检索性能: 查询-块相似性和重新排序器分数
使用方式
下载数据集
python from huggingface_hub import snapshot_download dataset_path = snapshot_download( repo_id="hatakekksheeshh/CSE_course_RAG", repo_type="dataset", local_dir="./data" )
或使用提供的下载脚本: bash python dataset.py
与RAG系统一起使用
python from rag.query_pipeline import QueryPipeline pipeline = QueryPipeline( index_dir="./data/indices", embedding_model="sentence-transformers/all-MiniLM-L6-v2" ) result = pipeline.answer( query="What is the grading policy?", course="Introduction_to_Computing" )
加载FAISS索引
python import faiss import pickle index = faiss.read_index("./data/indices/course_name.index") with open("./data/indices/course_name_metadata.pkl", "rb") as f: metadata = pickle.load(f)
处理原始数据
python import json with open("./data/processed/course_name/course_name.json", "r") as f: course_data = json.load(f)
局限性
- 数据集包含HCMUT的课程材料,可能特定于该机构的课程
- OCR质量取决于源文档质量
- 部分课程可能材料不完整或缺失
- 数据集主要为英文
引用
bibtex @dataset{cse_course_rag_2025, title={CSE Course RAG Dataset}, author={Nguyen Quoc Hieu}, year={2025}, publisher={HuggingFace}, url={https://huggingface.co/datasets/hatakekksheeshh/CSE_course_RAG} }
致谢
- 胡志明市理工大学(HCMUT) 提供课程材料
- HuggingFace 托管数据集
- PaddleOCR 提供OCR能力
- sentence-transformers 提供嵌入模型
- FAISS 提供高效相似性搜索
注意: 此数据集仅供研究和教育用途。请尊重原始课程材料的版权并适当使用。




