CTU Academic Regulation Dataset

Name: CTU Academic Regulation Dataset
Creator: 越南芹苴大学 (Can Tho University, CTU)
Published: 2025-10-02 16:40:55
License: 暂无描述

arXiv2025-10-02 更新2025-10-04 收录

下载链接：

https://github.com/REBot-Project/REBot-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为越南芹苴大学学术规定的问答数据集，包含1319个问答对，用于评估聊天机器人在处理学术规定相关问题的能力。数据集主要来源于芹苴大学的官方部门网站和其他可靠来源，所有数据都经过严格的人工验证，并由芹苴大学的学术支持专家撰写答案。数据集旨在解决学生在查找和解读学术规定时面临的困难，提供快速、准确和最新的答案。

This is a question-answering dataset focused on the academic regulations of Can Tho University, Vietnam. It contains 1319 QA pairs, designed to evaluate the capability of chatbots in handling questions related to academic regulations. The dataset is primarily sourced from the official departmental websites of Can Tho University and other reliable channels. All data has undergone strict manual verification, and the answers were written by academic support experts from Can Tho University. This dataset aims to address the difficulties encountered by students when searching for and interpreting academic regulations, providing fast, accurate and up-to-date answers.

提供机构：

越南芹苴大学 (Can Tho University, CTU)

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

在学术规范咨询系统开发领域，数据集的构建需兼顾专业性与实用性。CTU Academic Regulation Dataset通过系统化流程构建，首先从芹苴大学官方网站及权威PDF文档中提取原始文本，利用Docling工具进行精准解析与OCR处理，随后通过文本规范化（包括小写转换、停用词剔除及基于大语言模型的纠错）提升数据质量。语义增强环节引入包含46组学术领域缩略语-全称对的定制词典，并采用Underthesea工具包进行命名实体识别与词性标注，最终通过PhoBERTv2嵌入模型生成向量化表示，形成兼具结构化知识与语义向量的混合知识库。

特点

该数据集在学术政策智能问答场景中展现出多维特征。其核心优势在于融合了3,256条分类训练数据与1,319组权威问答对，覆盖入学管理、毕业要求、奖学金政策等六大规制领域。数据经过校内专家人工校验，确保政策解读的准确性与时效性。知识图谱采用三层架构（类别-文本块-实体），通过Neo4j向量数据库实现语义检索与关系推理的协同，支持实体关联分析与多跳推理。特别设计的分类器可实现查询意图的精准路由，使数据集兼具密集检索的广度与图谱推理的深度。

使用方法

该数据集的应用遵循分层处理范式。用户输入查询时，系统首先通过FastText分类器识别其所属规制类别，同步生成PhoBERTv2语义向量。检索阶段并行执行向量库相似度匹配与知识子图遍历，分别获取Top-K相关文本块及关联实体关系。证据融合模块将两类检索结果与扩展的实体关系网络整合为增强上下文，最终交由大语言模型生成兼具事实准确性与解释性的回答。该流程通过阈值调控平衡检索精度与召回率，支持实时咨询与批量处理两种应用模式。

背景与挑战

背景概述

随着高等教育管理数字化进程的推进，学术规章咨询系统成为提升学生服务效率的关键工具。芹苴大学研究团队于2025年提出CTU学术规章数据集，旨在解决越南高校政策文本分散化、语言形式化导致的检索困难问题。该数据集由学术支持专家团队构建，涵盖入学管理、学业评估、毕业要求等六大领域，通过结构化知识图谱与向量化检索技术的融合，为智能咨询系统提供精准的语义支持，显著提升了规章查询的准确性与时效性。

当前挑战

在学术规章智能咨询领域，核心挑战在于处理政策文本的语义歧义与多轮对话的上下文关联。数据集构建过程中面临双重困难：其一是政策文档的非结构化特征，需通过命名实体识别与关系抽取实现知识图谱的语义对齐；其二是越南语语法复杂性导致的实体识别偏差，需结合深度学习工具进行语言特征优化。此外，动态更新的规章制度要求系统具备持续学习能力，这对数据集的版本迭代机制提出了更高要求。

常用场景

经典使用场景

在高等教育管理智能化转型的背景下，CTU学术规范数据集为学术咨询系统的开发提供了核心支持。该数据集通过整合越南芹苴大学分散的规章制度文档，构建起结构化的知识库，其典型应用场景是作为智能问答系统的知识基底，支撑基于检索增强生成和知识图谱的混合架构，实现对学生学术政策咨询的精准响应。

解决学术问题

针对传统学术咨询系统存在的语义理解薄弱与政策关联缺失问题，该数据集通过融合命名实体识别与层次化知识图谱技术，显著提升了政策条款的结构化表征能力。其创新价值在于解决了多跳推理场景下的语义歧义问题，为教育管理领域的知识密集型任务提供了可验证的解决方案，推动了政策文本智能解析范式的演进。

衍生相关工作

该数据集催生了CatRAG框架的诞生，其核心创新在于将密集检索与图结构推理相融合。相关研究进一步拓展了基于FastText的多标签分类模型在越南语政策文本上的应用边界，同时推动了PhoBERT嵌入模型与Neo4j图数据库在教育领域的适配优化，为后续跨语言政策智能系统研发奠定了技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集