pedagogy-benchmark-multilingual

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/CraneAILabs/pedagogy-benchmark-multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

Pedagogy Benchmark - 多语言版本的数据集，提供了智利教师培训考试问题的非洲语言翻译，包括Luganda和Nyankore两种语言。数据集分为主要教学问题（cdpk_main）和特殊教育需求问题（cdpk_send），共计1,143个问题。这些问题覆盖了各种教学子领域和教育层次。

Pedagogy Benchmark – A multilingual dataset that provides translated versions of Chilean teacher training exam questions into two African languages, namely Luganda and Nyankore. The dataset is divided into two subsets: core teaching questions (cdpk_main) and special education needs questions (cdpk_send), totaling 1,143 questions. These questions cover a wide range of teaching subfields and educational levels.

创建时间：

2025-10-11

原始信息汇总

Pedagogy Benchmark - Multilingual 数据集概述

数据集基本信息

许可证: Apache 2.0
任务类别: 问答、多项选择
语言: 卢干达语(Luganda)、尼安科勒语(Nyankore)
数据集规模: 1K-10K样本
标签: 教育、教学法、多语言、非洲语言、教师培训

数据集描述

这是智利教师培训考试题目的非洲语言翻译版本，基于原始数据集AI-for-Education/pedagogy-benchmark进行多语言翻译。

支持语言

卢干达语（乌干达）
尼安科勒语（乌干达）
斯瓦希里语（即将推出）

数据集结构

配置和划分

每个语言包含两个划分，与原始数据集保持一致：

cdpk_main: 主要教学法问题（920个问题）
cdpk_send: 特殊教育需求和残疾(SEND)问题（223个问题）

数据字段

question_id: 唯一标识符（整数）
question: 多项选择题文本（字符串）
answer_a-answer_g: 答案选项（字符串，可为空）
correct_answer: 正确答案字母（A-G）
category: 学科类别（如科学、SEND、通用）
pedagogical_subdomain: 教学领域（如评估、教学策略）
age_group: 教育水平（学前、小学、中学）
year: 考试年份（整数）
secondary_category: 额外分类（SEND问题专用，可为空）

数据划分统计

语言配置	语言	cdpk_main	cdpk_send	总计
luganda	卢干达语	920	223	1,143
nyankore	尼安科勒语	920	223	1,143

数据集内容

问题类别（cdpk_main）

科学
语言与文学
数学
社会研究
艺术与体育教育
通用教学法

教学子领域

评估与评价
教学策略
学生理解
课程与规划
教育理论
专业发展

教育水平

学前：幼儿教育
小学：基础教育
中学：高中教育

SEND问题（cdpk_send）

特殊教育需求
包容性教育策略
差异化教学
个性化教育计划
辅助技术

翻译信息

翻译方法: 使用Google Gemini 2.0 Flash模型
翻译参数: 温度0.3，专用教育内容系统提示
质量保证: 母语者验证教育术语，样本验证，结构完全保留
翻译机构: CraneAI Labs
翻译日期: 2025年10月

使用限制

自动翻译可能无法捕捉所有文化细微差别
某些教学术语可能存在多种有效翻译
特定情境的教育参考可能需要调整
高风险应用建议进行人工审查

引用信息

原始数据集：https://huggingface.co/datasets/AI-for-Education/pedagogy-benchmark

bibtex @misc{pedagogy-benchmark-2024, title={Pedagogy Benchmark: Chilean Teacher Training Exams}, author={AI for Education}, year={2024}, publisher={Hugging Face}, url={https://huggingface.co/datasets/AI-for-Education/pedagogy-benchmark} }

搜集汇总

数据集介绍

构建方式

在跨语言教育评估资源稀缺的背景下，该数据集通过系统化翻译流程构建而成。基于智利教师培训考试的原始题库，采用谷歌Gemini 2.0 Flash模型进行专业化转译，设置0.3温度参数确保翻译一致性。翻译过程配备针对教育内容的专用提示模板，并由母语者进行术语验证与样本校验，完整保留了原数据集的结构特征与元数据信息。

使用方法

研究者可通过HuggingFace数据集库按语言与分支灵活调用，支持单独加载主题库或特殊教育题库。数据接口提供完整的题目文本、选项序列及标准答案，并附带学科分类、教学领域等元数据。使用时可结合具体语言代码实现精准调用，如加载卢干达语主题库或尼扬科勒语特殊教育题库，为跨语言教育模型测评提供标准化实验环境。

背景与挑战

背景概述

教育学多语言基准数据集由CraneAI实验室于2025年10月创建，旨在将智利教师资格考试题目转化为非洲本土语言资源。该数据集基于AI-for-Education团队开发的原始教育学基准，通过谷歌Gemini 2.0 Flash模型实现了卢干达语和尼安科勒语的专业翻译，涵盖基础教育、特殊教育需求等九大教学领域。作为首个面向非洲语言的教育评估数据集，其构建推动了跨文化教育资源的数字化进程，为乌干达等地区的教师专业发展提供了标准化测评工具。

当前挑战

数据集构建面临双重挑战：在领域问题层面，需确保教学策略、评估方法等专业术语在低资源语言中的准确传达，同时保持选择题选项的语义等价性；在技术实现层面，自动化翻译难以处理文化特定概念，如本土化教学案例的适应性转换，且特殊教育需求涉及的辅助技术等概念需要人工校验。此外，原始数据中针对智利教育体系的语境参照，需通过本地专家参与实现跨文化教育理念的融合。

常用场景

经典使用场景

在非洲语言教育技术领域，该数据集为教师专业发展评估提供了标准化工具。其核心应用体现在通过多语言多选题形式，系统评估教育工作者在课程设计、教学策略及特殊教育需求等维度的专业素养。卢干达语与尼安科勒语的双语架构，使得乌干达等地区的师资培训能够依托本土语言开展能力诊断，有效覆盖从学前教育到中学阶段的全周期教学场景。

解决学术问题

该数据集主要应对教育公平与语言多样性研究的核心挑战。通过将智利教师资质考试内容转化为非洲本土语言，它打破了传统教育评估中英语主导的壁垒，为研究多语言情境下的教学知识迁移提供了实验基础。其严谨的学科分类体系（涵盖科学、数学、艺术等）与教学子领域标注（如评估理论、课程规划），使得跨文化教师能力对比研究成为可能，推动了全球南方教育研究的范式创新。

实际应用

在实际教育生态中，该数据集正驱动着本土化教师培训系统的变革。乌干达地区的师范院校可借助这些翻译后的试题构建自适应学习平台，通过分析教师在特殊教育需求或差异化教学等模块的答题表现，生成个性化进修方案。教育科技企业则能基于该数据集开发多语言教师能力认证工具，为农村地区师资队伍的专业发展提供可量化的支撑体系。

数据集最近研究