five

stage1

收藏
Hugging Face2025-12-26 更新2025-12-27 收录
下载链接:
https://huggingface.co/datasets/khursani8/stage1
下载链接
链接失效反馈
官方服务:
资源简介:
MEKS(马来西亚教育知识种子)是一个开创性的数据集,捕捉了马来西亚教育的精髓。每个种子都是从真实的马来西亚考试题目中精心提取的知识点,涵盖从小学到大学预科水平的25+科目。数据集具有丰富的元数据,包括难度级别、学习目标和认知领域,并与马来西亚教育标准对齐。它适用于AI/ML研究、教育技术公司和教育机构,用于预训练基础模型、微调LLMs、构建RAG系统等。数据集包含142,789个知识种子,分为训练集、验证集和测试集,覆盖24,096个问题(99.8%的覆盖率)。
创建时间:
2025-12-23
原始信息汇总

🇲🇾 MEKS: Malaysian Educational Knowledge Seeds 数据集概述

数据集基本信息

  • 数据集名称:MEKS: Malaysian Educational Knowledge Seeds
  • 数据集标识:khursani8/stage1
  • 语言:马来语(主要)、英语
  • 许可证:MIT
  • 标签:教育、马来西亚、马来语、知识、教学、学习、东南亚
  • 数据规模:100K<n<1M
  • 总知识种子数:142,789

数据集描述

MEKS(马来西亚教育知识种子)是一个从真实的马来西亚考试题目中精心提取的知识片段数据集,涵盖了从小学到大学预科级别的25门以上科目。它是多阶段教育语料库的第一阶段(知识种子),包含原子化的知识块。

多阶段语料库结构

完整的教育语料库包含多个阶段,每个阶段都建立在前一阶段之上:

  • 阶段1(知识种子):原子知识块(即本数据集)
  • 阶段2(综合材料):从种子扩展的详细教学材料
  • 阶段3(预训练句子):用于模型预训练的复杂、相互关联的句子
  • 阶段3.1(跨领域):扩展到相关领域的内容
  • 阶段4(最终数据集):合并的、经过质量过滤的语料库,可用于训练

数据集划分

  • 训练集:114,231(80%)
  • 验证集:14,279(10%)
  • 测试集:14,279(10%)

核心特征

  • 课程对齐:符合马来西亚教育标准
  • 文化真实性:真实的马来西亚背景和学生熟悉的例子
  • 丰富的元数据:包含难度级别、学习目标和认知领域
  • 质量保证:经过主题一致性和教育标准验证
  • 来源覆盖率:24,096 / 24,153 问题(99.8%)
  • 生成目标:142,600 种子(目标的147.6%)

科目覆盖范围

  • 核心学科:Bahasa Melayu、英语、数学、科学
  • 人文学科:Sejarah(历史)、Geografi(地理)、Pendidikan Moral(道德教育)、Pendidikan Islam(伊斯兰教育)
  • 技术与职业:Kemahiran Hidup(生活技能)、Reka Bentuk dan Teknologi(设计与技术)、Teknologi Automotif(汽车技术)
  • 创意艺术:Pendidikan Seni(艺术教育)、Pendidikan Muzik(音乐教育)
  • 体育教育:Pendidikan Jasmani dan Kesihatan(体育与健康教育)

知识种子内容

每个知识种子包含:

  1. 核心概念:清晰、原子化的知识解释
  2. 学科背景:所属的科目和主题
  3. 难度级别:简单、中等或困难
  4. 学习目标:基于布鲁姆分类法
  5. 真实例子:用于背景的问答对
  6. 常见误区:学生通常误解的内容

技术规格

  • 平均种子长度:150-300字符
  • 少样本示例:每个种子2-3个
  • 格式:JSONL、Parquet、Arrow
  • 许可证:MIT(开源)

适用场景

  • AI/ML研究:预训练基础模型、微调LLM、构建RAG系统、模型评估
  • 教育科技公司:智能辅导、内容生成、评估工具、学习分析
  • 教育机构:课程模式研究、教师培训、学生支持

快速开始

python from datasets import load_dataset dataset = load_dataset("khursani8/stage1")

相关资源

  • 完整多阶段语料库:https://huggingface.co/datasets/khursani8/cuti
  • 技术文档:README_TECHNICAL.md
  • Smol训练手册:https://gist.github.com/unclecode/e5da5fb6a1d37022b089e243e0d9e00e

引用

bibtex @dataset{meks_knowledge_seeds, title = {MEKS: Malaysian Educational Knowledge Seeds}, author = {MEKS Team}, year = {2025}, publisher = {Hugging Face}, version = {1.0.0}, url = {https://huggingface.co/datasets/khursani8/stage1} }

搜集汇总
数据集介绍
main_image_url
构建方式
在马来西亚教育知识种子(MEKS)数据集的构建过程中,研究团队从真实的国家考试题目中系统性地提取了原子化的知识单元。这些知识种子覆盖了从小学到大学预科阶段的25门以上学科,确保了与马来西亚国家课程标准的严格对齐。构建过程注重质量保证,每个种子都经过学科专家的验证,以维持教育标准的准确性和一致性。数据集最终包含142,789个知识种子,并按照80:10:10的比例划分为训练集、验证集和测试集,为机器学习任务提供了结构化的基础。
特点
该数据集的核心特点在于其深度融入马来西亚本土教育语境,每个知识种子不仅包含清晰的核心概念阐述,还附有丰富的元数据,如学科归属、难度分级、基于布鲁姆分类法的学习目标以及常见的理解误区。数据以马来语为主要语言,英语为辅,确保了文化真实性和语境相关性。其结构化设计支持多种应用场景,从语言模型预训练到检索增强生成系统,都能从中获取高质量、课程对齐的教育内容。
使用方法
研究人员可通过Hugging Face的`datasets`库便捷加载此数据集,利用其预分割的训练、验证和测试集进行模型开发。该数据集特别适用于教育领域大型语言模型的持续预训练、领域适应性微调以及构建智能辅导系统。用户可以根据学科、难度等元数据对种子进行筛选,以支持个性化的实验设计。结合配套的技术文档和训练指南,开发者能够高效地将其整合到各类教育人工智能的研发流程中。
背景与挑战
背景概述
MEKS(马来西亚教育知识种子)数据集于2025年由MEKS团队发布,旨在系统化地构建一个涵盖马来西亚国家课程的多阶段教育知识语料库。该数据集作为其多阶段结构中的第一阶段,聚焦于从真实考试题目中提取原子化的知识单元,覆盖从小学到大学预科超过25门学科。其核心研究问题在于如何将结构化的课程知识转化为机器可读的格式,以支持教育领域的人工智能应用,如个性化学习系统和课程内容生成。该数据集的创建标志着马来西亚本土教育知识在自然语言处理领域的重要开放,为开发 culturally-aware 的语言模型提供了高质量的领域特定数据,有望推动东南亚地区教育技术的公平发展与创新。
当前挑战
MEKS数据集致力于解决教育领域知识结构化与本土化表示的挑战。具体而言,其核心挑战在于如何将非结构化的、富含文化背景的马来西亚课程内容,精准分解为原子化且语义完整的知识单元,同时确保其与官方课程标准及布鲁姆教育目标分类法对齐。在构建过程中,团队面临多重困难:首先,需要从海量且格式各异的原始考试材料中,高保真地提取和验证知识,保证信息的一致性与教育准确性;其次,处理多语言内容(主要是马来语和英语)并维持文化语境的原生性,对标注与质量控制提出了极高要求;最后,设计可扩展的多阶段语料库架构,确保从知识种子到复杂句子的演进逻辑连贯,也是一项复杂的系统工程。
常用场景
经典使用场景
在自然语言处理与教育技术交叉领域,MEKS数据集为构建马来西亚本土化教育大语言模型提供了核心语料。其经典应用场景在于作为高质量预训练数据源,赋能模型深入理解马来西亚国家课程体系中的学科知识与文化语境。研究者可基于这些原子化的知识种子,训练模型掌握从基础语言到专业学科的复杂概念,进而生成符合当地教育标准的教学材料与评估题目。
实际应用
在教育科技产业实践中,MEKS数据集能够驱动智能辅导系统、自适应学习平台与自动化评估工具的研发。机构可利用其构建检索增强生成系统,为学生提供个性化习题推荐与知识点讲解;教师则可借助基于该数据集训练的AI助手,快速生成本土化教学案例。这些应用显著提升了教育资源的生产效率与覆盖范围,尤其惠及马来西亚多元语境下的教育公平。
衍生相关工作
围绕MEKS数据集已衍生出系列重要研究工作,包括多阶段教育语料库的构建方法论、基于课程知识的检索增强生成框架,以及面向马来语的教育大模型微调技术。其作为CUTI多阶段语料库的奠基部分,启发了后续阶段在教材扩展、跨领域迁移与最终模型训练等方面的系统性探索,为东南亚地区教育人工智能生态的发展提供了可复制的数据范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作