classnotes
收藏Hugging Face2024-09-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/nyuuzyou/classnotes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自конспекты-уроков.рф平台的65,068个教案的元数据,其中58,433个文件以原始格式提供。数据集包括教案标题、描述、作者、发布日期和文件大小等信息。教案主要以俄语编写,涵盖了各种教育科目和年级。数据集是多语言的,俄语为主要语言,还包括哈萨克语、乌克兰语、白俄罗斯语和英语。数据集根据Creative Commons Attribution-NonCommercial 3.0 Unported (CC BY-NC 3.0)许可证授权。
创建时间:
2024-09-08
原始信息汇总
数据集卡片:Lesson Plans Dataset
数据集概述
该数据集包含来自 конспекты-уроков.рф 平台的65,068个教案的元数据,其中58,433个文件以原始格式提供。数据集包括教案标题、描述、作者、发布日期和文件大小等信息。教案主要以俄语编写,涵盖了各种教育科目和年级。
语言
该数据集是多语言的,主要语言为俄语。其他语言包括:
- 俄语 (ru)
- 哈萨克语 (kk)
- 乌克兰语 (uk)
- 白俄罗斯语 (be)
- 英语 (en)
- 其他语言
数据集结构
数据字段
该数据集包含以下字段:
page_url:教案页面在конспекты-уроков.рф上的URL(字符串)title:教案标题(字符串)description:教案内容的简要描述或摘要(字符串)author:教案作者姓名(字符串)date_published:教案发布日期(字符串,格式:YYYY-MM-DD)download_url:教案下载URL(字符串或null)filepath:下载的教案本地文件路径(字符串或null)filesize:教案文件大小(整数或null)
数据分割
所有示例都在一个单一分割中。
附加信息
许可证
该数据集根据 Creative Commons Attribution-NonCommercial 3.0 Unported (CC BY-NC 3.0) 许可证进行授权。这意味着您可以:
- 分享:以任何媒介或格式复制和重新分发材料
- 改编:重新混合、转换和构建材料
在以下条件下:
- 署名:您必须给予适当的署名,提供许可证的链接,并说明是否进行了更改。您可以以任何合理的方式进行,但不得以任何方式暗示许可方认可您或您的使用。
- 非商业性:您不得将材料用于商业目的。
CC BY-NC 3.0 许可证:https://creativecommons.org/licenses/by-nc/3.0/
数据集策展人
搜集汇总
数据集介绍

构建方式
该数据集源自конспекты-уроков.рф平台,收录了65,068份教案的元数据,其中58,433份文件以原始格式提供。数据集的构建过程包括从平台抓取教案的标题、描述、作者、发布日期及文件大小等信息,并以JSONL格式进行存储。数据来源主要为平台用户上传的教案,涵盖了多种教育科目和年级。
特点
该数据集以俄语为主要语言,同时包含少量哈萨克语、乌克兰语、白俄罗斯语和英语内容,呈现出多语言特性。数据集中的教案涵盖了广泛的教育主题和年级,具有较强的多样性和实用性。每个教案的元数据包括页面URL、标题、描述、作者、发布日期、下载链接、本地文件路径及文件大小,结构清晰且信息丰富。
使用方法
该数据集适用于文本分类和文本检索任务,用户可通过解析JSONL文件获取教案的元数据信息。使用时应遵循CC BY-NC 3.0许可协议,确保非商业用途并注明来源。数据集中的下载链接可用于获取原始教案文件,进一步支持教育研究或教学资源开发。
背景与挑战
背景概述
classnotes数据集由nyuuzyou团队于近年构建,主要收录了来自俄罗斯教育平台конспекты-уроков.рф的65,068份教案元数据,涵盖多种学科和年级。该数据集的核心研究问题在于如何通过多语言文本数据支持教育资源的自动化分类与检索,尤其是针对俄语及其他斯拉夫语系语言的教学内容。其多语言特性(包括俄语、哈萨克语、乌克兰语、白俄罗斯语和英语)为跨语言教育研究提供了重要资源,推动了教育技术领域的发展。
当前挑战
classnotes数据集面临的挑战主要体现在两个方面。首先,在领域问题上,尽管数据集支持多语言文本分类与检索,但由于俄语及其相关语言的复杂语法结构和丰富的形态变化,文本处理任务(如分类和检索)的准确性受到显著影响。其次,在构建过程中,数据集的收集与标注面临多语言资源的稀缺性,尤其是哈萨克语、乌克兰语和白俄罗斯语的内容较少,导致数据分布不均衡。此外,原始数据的格式多样性和非结构化特性增加了数据清洗与预处理的难度,进一步影响了数据集的可用性。
常用场景
经典使用场景
classnotes数据集在教育技术领域具有广泛的应用,尤其是在教学资源管理和教学计划优化方面。该数据集包含了大量以俄语为主的教学计划,涵盖了多个学科和年级,为教育研究者提供了一个丰富的资源库。通过分析这些教学计划,研究者可以深入了解不同教学策略的效果,进而优化教学设计。
实际应用
在实际应用中,classnotes数据集被广泛用于开发智能教学辅助系统。通过分析教学计划的内容和结构,系统可以自动生成个性化的教学建议,帮助教师优化课程设计。此外,该数据集还被用于开发多语言教学资源推荐系统,支持不同语言背景的学生获取适合的学习材料。
衍生相关工作
基于classnotes数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了基于深度学习的教学计划分类模型,能够自动识别教学计划的学科和年级。此外,该数据集还被用于研究多语言教学资源的跨语言检索技术,推动了教育技术领域的多语言处理研究。
以上内容由遇见数据集搜集并总结生成



