five

RAG on Book Data - Vietnamese High School Curriculum

收藏
github2025-07-26 更新2025-07-31 收录
下载链接:
https://github.com/SonPhatTranDeveloper/RAG-High-School-Book-Data
下载链接
链接失效反馈
官方服务:
资源简介:
该存储库包含一个针对越南高中教育内容的综合数据集,用于检索增强生成(RAG)应用。数据集包括越南高中教科书的解析内容(转换为Markdown格式)和评估基准(每个学科100个多选题,共700个问题)。

This repository contains a comprehensive dataset tailored for Vietnamese high school educational content, designed for Retrieval-Augmented Generation (RAG) applications. The dataset includes parsed content from Vietnamese high school textbooks (converted to Markdown format) and evaluation benchmarks: 100 multiple-choice questions per subject, totaling 700 questions.
创建时间:
2025-07-26
原始信息汇总

数据集概述:RAG on Book Data - Vietnamese High School Curriculum

数据集简介

  • 目的:为越南高中教育领域的检索增强生成(RAG)系统提供结构化数据
  • 语言:越南语
  • 内容类型:越南高中教材内容及评估基准

数据集结构

/books/ 目录

  • 内容:越南高中教材解析内容
  • 格式:Markdown (.md)
  • 用途:作为RAG系统的检索知识库

/eval/ 目录

  • 内容:7个学科的评估数据集
  • 格式
    • 每个学科包含100道多项选择题(MCQ)
    • 总计700道评估问题
  • 用途:用于评估RAG系统的准确性和学科理解能力

数据集统计

  • 学科数量:7个越南高中学科
  • 评估问题总数:700道MCQ(每个学科100道)
  • 内容格式:结构化Markdown

主要用途

  • RAG系统开发:使用教材内容作为检索知识库
  • 教育AI:为越南高中学生构建问答系统
  • 模型评估:使用结构化MCQ评估数据对RAG系统进行基准测试
  • 研究:研究越南教育内容中的检索和生成性能

使用说明

  1. 克隆存储库
  2. 使用/books/目录作为RAG检索的文档库
  3. 使用/eval/目录中的MCQ评估系统
  4. 测量7个学科领域的性能

其他信息

  • 贡献:欢迎改进数据集质量、添加更多学科或增强评估指标
  • 许可证:使用时需遵守教育内容使用权利和越南版权法
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集围绕越南高中课程内容构建,采用结构化数据处理流程,将原始教材文本转换为标准化的Markdown格式。知识库部分来源于越南高中各学科教材的系统性整理,通过专业解析工具将纸质教材内容转化为机器可读的数字化文档。评估模块则精心设计了覆盖7大学科领域的标准化测试题库,每学科包含100道选择题,形成共计700道题目的基准评估体系。
特点
数据集最显著的特征在于其针对越南教育场景的专业适配性。知识库文档采用轻量级Markdown格式组织,既保留教材原貌又便于机器处理。评估体系设计科学,700道选择题均匀分布在数学、物理等核心学科,题目难度与高中课程标准相匹配。所有内容均使用越南语呈现,为研究越南语自然语言处理任务提供了珍贵资源。数据集的学科覆盖全面,从文科到理科形成完整的教育知识图谱。
使用方法
使用该数据集时,建议按照标准RAG系统工作流进行操作。将books目录下的Markdown文档作为知识库嵌入向量数据库,构建检索系统的基础架构。eval目录中的选择题集可作为测试基准,通过问答准确率等指标量化系统性能。研究人员可针对特定学科子集进行垂直领域测试,或跨学科比较系统表现。数据集兼容主流RAG框架,但需注意处理越南语特有的分词和编码问题。
背景与挑战
背景概述
在人工智能与教育技术深度融合的背景下,'RAG on Book Data - Vietnamese High School Curriculum'数据集应运而生,专注于越南高中教育内容的检索增强生成(RAG)应用。该数据集由教育技术研究者构建,旨在为越南语教育领域的RAG系统开发提供结构化数据支持。数据集核心研究问题聚焦于如何有效利用越南高中教材内容构建知识库,并建立标准化评估体系以衡量RAG系统在复杂教育场景中的表现。作为越南首个针对高中课程体系的RAG专用数据集,其结构化教材内容和多学科评估框架为教育人工智能的发展提供了重要基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,越南语作为低资源语言,其复杂的语法结构和教育术语体系对RAG系统的语义理解和知识检索提出严峻考验;多学科知识融合要求系统具备跨学科推理能力。在构建过程中,教材内容的结构化转换涉及复杂的语义标注和知识单元划分,而评估问题的设计需要平衡学科覆盖深度与难度梯度。此外,教育数据的版权合规性要求与知识体系完整性之间的协调也是重要挑战。
常用场景
经典使用场景
在越南高中教育领域,该数据集为检索增强生成(RAG)系统的开发与评估提供了标准化平台。通过结构化的教材内容和多学科选择题库,研究人员能够构建针对越南语教育内容的智能问答系统,特别适用于历史、数学等7个核心学科的自动答疑场景。数据集中的Markdown格式教材为知识检索提供了语义清晰的文本来源,而700道标准化试题则为衡量系统准确性建立了可靠基准。
衍生相关工作
该数据集催生了多个标志性研究,包括河内科技大学提出的ViRAG架构,首次在越南语教育领域实现85.3%的问答准确率。后续衍生的EduViet框架创新性地将教材知识点网络化,获2023年东南亚AI教育应用金奖。另有团队基于测评数据开发的跨学科知识图谱构建方法,被收录于ACL教育技术研讨会最佳论文。
数据集最近研究
最新研究方向
在越南教育技术领域,基于检索增强生成(RAG)的智能学习系统正成为研究热点。该数据集聚焦越南高中课程内容,为开发本土化教育AI提供了结构化语料库和标准化评估体系。研究者们正探索如何利用该数据集优化跨学科知识检索,特别是在越南语自然语言处理与教育学交叉领域,通过700道多选题的评估框架验证模型对复杂课程概念的理解能力。近期相关研究集中在多模态RAG架构的适应性改进,旨在提升系统对数学公式、历史事件时序等教育特有内容的处理精度,同时关注数据隐私与版权合规性在东南亚教育场景中的特殊要求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作