tdtu-student-regulations-qa

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/hungminhss/tdtu-student-regulations-qa

下载链接

链接失效反馈

官方服务：

资源简介：

TDTU越南大学规定问答数据集是一个专门用于越南语问答任务的数据集，聚焦于越南Tôn Đức Thắng大学的学生规章制度。该数据集旨在支持检索增强生成（RAG）和大型语言模型（LLM）微调，用于开发学生咨询聊天机器人。数据集包含350个问答对（300个训练样本，50个测试样本），涵盖学生纪律、奖学金条件、学分管理、行为规范等多个主题。每个样本包含唯一ID、问题、答案、来源文件、分块ID等字段，并经过人工验证。数据来源于20个大学规章文本文件，通过深度处理流程生成问答对，并经过严格过滤和质量评估。数据集仅限非商业用途，且答案内容仅反映2024-2025学年的规定。

创建时间：

2026-05-05

原始信息汇总

TDTU 越南大学校规问答数据集

数据集概述

该数据集是一个面向越南语、专注于孙德胜大学（TDTU）学生规章制度的问答数据集，专为检索增强生成（RAG）和大语言模型微调任务设计，旨在训练学生咨询聊天机器人。

语言： 越南语
领域： 大学规章制度、学生政策
许可证： CC BY-NC 4.0（非商业用途）
任务类别： 问答（抽取式问答、开放域问答）
数据规模： 100 < 样本数 < 1,000

数据字段

字段名	类型	描述
`id`	string	问答对的唯一ID（如：`qa_0001`）
`question`	string	越南语问题（涵盖条件、程序、后果等多种类型）
`answer`	string	根据规章制度文档生成的完整、准确回答
`source_file`	string	原始文档文件名
`chunk_id`	string	用于检索的子块ID
`parent_chunk_id`	string	父块ID（语义完整的单元）
`split`	string	数据集划分（`train` 或 `test`）
`human_verified`	bool	是否经过人工验证

数据划分

划分	样本数	说明
训练集	≥300	按源文件80%分层抽样
测试集	≥50	按源文件20%分层抽样，并经过人工检查

数据来源

数据集基于20份TDTU规章制度文档（.txt格式，总计约419KB），涵盖以下内容：

源文件	内容
学生工作规章	纪律、学生权利与义务
奖学金指南	各类奖学金的申请条件与标准
教学组织与管理规章	学分、课程注册、毕业审核
品德考评规章	品德评分标准与分类
违规附录	违规行为及处理方式
第22号决定（抄袭）	抄袭管控与处理规定
行为准则	学生沟通与行为规范
...（共20份文档）	...

数据集构建

分块流程

按段落（`

`）切分为父块（保持语义完整） 2. 对表格、列表、句子进行机械切分，生成子块（80–800字符，适合嵌入） 3. 使用DeepSeek-V3进行元数据标注（标题+摘要）

问答生成

模型： deepseek-chat（DeepSeek-V3）
生成方式： 基于父块生成完整回答，避免信息截断
问题类型： 条件、程序、期限、后果、情境、确认、比较等
温度参数： 0.85（提高多样性）

过滤条件

剔除问题<10字符或回答<20字符的样本
剔除回答与原文三字母重叠度<2的样本
使用余弦相似度（阈值0.92）去重

人工标注

测试集（≥50对）按以下5个标准进行人工评分（1–5分）：

准确性： 回答是否符合规定
完整性： 是否包含必要信息
流畅度： 语言是否自然易懂
简洁性： 是否重点突出、不啰嗦
无幻觉： 是否编造信息

偏差、风险与限制

仅包含TDTU校规，不适用于其他大学
回答由LLM生成，可能存在细微错误；建议部署时使用RAG检索原始文档
校规可能随学年更新，需定期更新数据

搜集汇总

数据集介绍

构建方式

该数据集基于越南孙德胜大学（TDTU）的20份学生规章文本构建，总容量约419KB。构建流程首先采用段落分割（基于换行符）生成语义完整的父块，再通过机械分割（表格、列表、句子）生成80至800字符的子块，并利用DeepSeek-V3模型为每个块标注标题与摘要。随后，从父块出发，调用DeepSeek-V3模型以0.85的温度参数生成多样化问答对，涵盖条件、程序、期限、后果、情境、确认与比较等七类问题。最后，通过字符长度过滤、三元组重叠度筛选以及基于余弦相似度（阈值为0.92）的重复项移除，确保数据质量与独特性。

特点

该数据集共计包含350个问答对，其中训练集300个，测试集50个，均由人工校验确保准确性。数据结构包含ID、问题、答案、来源文件、子块ID、父块ID、数据集划分及人工验证标记八个字段。测试集经过五项维度（准确性、完整性、流畅性、简洁性、无幻觉）的人工评估，保障输出质量。数据来源覆盖学生工作规定、奖学金指南、培训管理规程、品德评估标准、违规处理附录、反抄袭规定及行为准则等多类规章，领域专精性强，适用于检索增强生成与微调场景。

使用方法

用户可通过HuggingFace的datasets库直接加载该数据集，调用load_dataset函数即可获取训练与测试划分。典型使用场景包括构建越南语大学规章问答系统，尤其适用于基于RAG架构的聊天机器人开发。建议部署时将生成的答案与原始规章文本进行检索增强，以降低大语言模型可能产生的幻觉风险。需注意该数据集仅反映2024至2025学年期间的有效规定，实际应用中应定期更新以匹配最新规章变化，且数据集基于CC BY-NC 4.0许可，禁止商业用途。

背景与挑战

背景概述

在越南高等教育领域，学生管理规章制度的数字化与智能问答需求日益凸显。2025年，胡志明市孙德胜大学（TDTU）的研究者Hoàng Sinh Hùng针对这一问题创建了tdtu-student-regulations-qa数据集，旨在为越南语学生规章制度问答系统提供训练资源。该数据集涵盖20份校内规章制度文件，核心研究问题是如何构建基于检索增强生成（RAG）与大语言模型微调（LLM Fine-tuning）的越南语智能问答系统，以高效解答学生在纪律、奖学金、学业管理等方面的疑问。作为首个聚焦越南高校特定规章制度问答任务的开源数据集，其通过355个高质量问答对（含人工验证）为低资源语言领域工程提供了宝贵基准，推动了越南语自然语言处理在高等教育场景的应用研究。

当前挑战

该数据集主要面临双重挑战。在领域问题层面，越南语高校规章制度问答任务需解决规则文本的语义复杂性、多类型问答需求（如条件确认、流程查询、后果推测等）以及规章制度时效性带来的知识更新难题。在构建过程中，研究者需克服：1）20份总计约419KB的非结构化规章制度文本的合理分块，需同时保持语义完整性（parent chunk）与嵌入检索有效性（child chunk）；2）利用DeepSeek-V3生成问答时需平衡多样性（temperature=0.85）与准确性，并通过余弦相似度去重（阈值0.92）与人工校验过滤低质样本；3）构建涵盖7种问题类型且符合学校真实规定的多轮质量评估体系，确保测试集50对样本在准确性、完整性、流畅性等5个维度达标。

常用场景

经典使用场景

TDTU Vietnamese University Regulations QA数据集专为越南语开放域问答任务而构建，在高等教育管理领域具有独特价值。其核心应用场景聚焦于通过检索增强生成（RAG）与大型语言模型微调（fine-tuning）技术，构建智能问答系统以解答学生关于校规校纪的各类疑问。该数据集涵盖从学业管理、奖学金评定到行为规范等多维度的300余组问答对，每项均源自官方正式文件，并经过人类专家验证，确保语义准确性与法规一致性。

实际应用

在实际部署层面，该数据集的核心价值在于为越南高校打造专属智能学生事务助手提供训推一体化支撑。设想一名TDTU新生询问奖学金评定条件或学分修读要求，基于此数据集微调后的RAG服务可实时检索相关法规原文并生成亲切自然的越南语回复。这一方案显著减轻了学生事务处面对高频重复咨询的工作负荷，同时保障了回复内容精准、时效性强。依托该数据集开发的系统不仅能处理预设问题，更能泛化至类似情境，从而在越南高校数字化管理转型中发挥标杆引领作用。

衍生相关工作

围绕该数据集已衍生出多项开拓性工作。一是在检索增强方向，研究者尝试基于该语料探索越南语专用句子嵌入模型（如PhoBERT、bKAI）的分块检索效能，对比不同粒度切分策略对答案召回率的影响。二是在模型可信性评估领域，该数据集被用于构建结构化知识检测基准，系统评价生成式AI在法规问答场景中的事实一致性水平。此外，其分层架构启发了针对小语种领域问答数据构建的通用方法论，推动了越南语NLP在规范文本理解与智能咨询系统开发方面的产学研深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集