CSE_course_RAG

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/hatakekksheeshh/CSE_course_RAG

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的检索增强生成（RAG）系统数据集，包含来自胡志明市理工大学（HCMUT）的计算机科学与工程（CSE）课程材料的处理版本。该数据集包括预构建的FAISS索引、处理过的课程文档、原始PDF文件以及转换后的图像，适用于教育领域的RAG应用。数据集支持问答、信息检索和文本生成等任务，并提供了详细的处理流程和数据结构说明。

创建时间：

2025-12-15

原始信息汇总

CSE Course RAG 数据集概述

数据集基本信息

数据集名称: CSE Course RAG Dataset
作者: Nguyen Quoc Hieu
发布年份: 2025
发布平台: HuggingFace
许可证: MIT License
版权: © 2025 Nguyen Quoc Hieu, Ho Chi Minh City University of Technology

数据集目的与内容

这是一个用于检索增强生成（RAG）系统的综合性数据集，包含来自胡志明市理工大学（HCMUT）的计算机科学与工程（CSE）课程材料。该数据集旨在支持教育AI系统的研究与开发，特别是问答和信息检索应用。

数据集结构与组成

数据集包含以下目录和内容：

indices/: 用于语义搜索的预构建FAISS索引
processed/: 已处理的课程数据（JSON格式）
raw/: 原始PDF文档
converted/: 已转换的页面图像（OCR就绪）
data/: 额外的已处理数据
scratch/: 临时处理文件

技术规格

任务类别: 问答、信息检索、文本生成
语言: 英语
标签: RAG、检索增强生成、教育、课程材料、FAISS、嵌入、CSE、计算机科学
规模类别: 1K<n<10K
包含课程: 多个CSE课程
内容类型: 每门课程的教学大纲和材料文档、预处理的文本块与嵌入、用于快速检索的FAISS索引

数据处理流程

数据经过以下处理流程：

转换: PDF/Office文档 → 页面图像
OCR: 使用PaddleOCR进行文本提取
解析: 结构化JSON提取（教学大纲和材料解析器）
分块: 带重叠的文本分块
嵌入: 使用句子转换器生成嵌入
索引: FAISS索引构建

数据字段说明

已处理数据（JSON）字段:

course: 课程名称
course_id: 课程代码
schema_version: 数据模式版本
slides: 幻灯片对象数组，包含：
- page_index: 页码
- chapter_num: 章节号
- source_file: 源文件路径
- metadata: 处理元数据
- raw_text: 提取的OCR文本

FAISS索引:

用于语义搜索的向量嵌入
用于块检索的元数据映射
特定于课程的索引

支持的任务

问答: 使用检索到的上下文回答课程内容相关问题
信息检索: 对课程材料进行语义搜索
文本生成: 基于检索到的课程内容生成答案

数据集统计与评估

数据集包含：

涵盖各种计算机科学主题的多个CSE课程
包含课程信息、评分政策、先决条件的结构化教学大纲数据
包括讲义幻灯片和章节内容的课程材料
使用句子转换器模型预计算的嵌入
为快速相似性搜索优化的FAISS索引

评估指标:

答案忠实度: 通过查询重写提高+21.1%
顶部块分数: 在重新排序器置信度中提高+80.9%
查询-答案相似性: 查询与答案之间的语义对齐
检索性能: 查询-块相似性和重新排序器分数

使用方式

下载数据集

python from huggingface_hub import snapshot_download dataset_path = snapshot_download( repo_id="hatakekksheeshh/CSE_course_RAG", repo_type="dataset", local_dir="./data" )

或使用提供的下载脚本： bash python dataset.py

与RAG系统一起使用

python from rag.query_pipeline import QueryPipeline pipeline = QueryPipeline( index_dir="./data/indices", embedding_model="sentence-transformers/all-MiniLM-L6-v2" ) result = pipeline.answer( query="What is the grading policy?", course="Introduction_to_Computing" )

加载FAISS索引

python import faiss import pickle index = faiss.read_index("./data/indices/course_name.index") with open("./data/indices/course_name_metadata.pkl", "rb") as f: metadata = pickle.load(f)

处理原始数据

python import json with open("./data/processed/course_name/course_name.json", "r") as f: course_data = json.load(f)

局限性

数据集包含HCMUT的课程材料，可能特定于该机构的课程
OCR质量取决于源文档质量
部分课程可能材料不完整或缺失
数据集主要为英文

引用

bibtex @dataset{cse_course_rag_2025, title={CSE Course RAG Dataset}, author={Nguyen Quoc Hieu}, year={2025}, publisher={HuggingFace}, url={https://huggingface.co/datasets/hatakekksheeshh/CSE_course_RAG} }

致谢

胡志明市理工大学（HCMUT） 提供课程材料
HuggingFace 托管数据集
PaddleOCR 提供OCR能力
sentence-transformers 提供嵌入模型
FAISS 提供高效相似性搜索

注意: 此数据集仅供研究和教育用途。请尊重原始课程材料的版权并适当使用。

搜集汇总

数据集介绍

构建方式

在计算机科学与工程教育领域，数据资源的系统化整合对于推动智能教育系统的发展至关重要。CSE_course_RAG数据集的构建遵循一套严谨的多阶段处理流程：原始课程材料如PDF文档首先被转换为图像格式，随后利用PaddleOCR技术进行光学字符识别以提取文本内容。通过定制化的解析器，文本被结构化为包含课程名称、章节编号及元数据的JSON对象。接着，文本经过分块处理并生成重叠片段，以增强上下文连贯性。每个文本块均通过句子转换器模型转化为高维向量嵌入，最终使用FAISS库构建高效的语义检索索引，从而形成一个即用型的数据管道。

使用方法

使用该数据集时，用户可通过HuggingFace Hub直接下载完整资源包，包含索引、处理数据和原始文件。在检索增强生成系统中，可加载预建的FAISS索引与元数据，结合句子转换器模型初始化查询管道。用户只需指定课程名称与问题，系统便能自动检索相关文本块并生成答案。数据集还支持自定义处理，允许用户重新加载JSON格式的课程数据或利用原始图像进行OCR再处理，为实验和开发提供了灵活的基础设施。

背景与挑战

背景概述

随着教育人工智能技术的迅猛发展，检索增强生成系统在学术资源管理领域展现出巨大潜力。CSE_course_RAG数据集由胡志明市理工大学的研究人员于2025年创建，旨在构建一个专为计算机科学与工程课程材料设计的结构化知识库。该数据集的核心研究问题聚焦于如何高效整合多模态教育内容，并通过语义检索支持智能问答与信息获取，从而推动个性化学习系统的演进，对教育技术领域产生了显著的示范效应。

当前挑战

在构建过程中，数据集面临多模态文档处理的复杂性，包括原始PDF格式转换、光学字符识别精度控制以及文本分块策略的优化。此外，针对教育领域的特定挑战在于确保课程材料的语义连贯性与检索准确性，需克服课程内容异构性、机构特定性以及多语言支持的局限。这些挑战共同指向了教育知识库构建中数据标准化与系统泛化能力的核心难题。

常用场景

解决学术问题

该数据集有效应对了教育人工智能研究中信息检索与文本生成的融合挑战。通过提供经过OCR处理、分块并嵌入的课程材料，它解决了传统问答系统在专业领域知识覆盖不足、上下文关联弱的问题。其预构建的索引和评估指标，如答案忠实度与查询-块相似性，为量化RAG系统的性能提供了基准，推动了学术界对语义搜索、多模态学习以及教育内容自适应生成等核心议题的深入探索。

实际应用

在实际应用中，CSE_course_RAG数据集能够支撑智能教育助手和课程管理平台的开发。教育机构可基于此构建自动化答疑系统，帮助学生即时获取课程政策、学习资料和概念解释；企业培训部门则可借鉴其架构，为内部技术课程创建知识检索工具。此外，该数据集的处理流程为其他领域文档的RAG系统部署提供了可复用的技术范本，提升了行业在知识密集型任务中的效率。

数据集最近研究