five

znanio-presentations-part1

收藏
Hugging Face2024-11-17 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/nyuuzyou/znanio-presentations-part1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自znanio.ru平台的144,280个教育演示文稿,主要以俄语为主,部分内容为英语,可能包含其他语言。数据集分为两部分,每部分包含约72,140个演示文稿,组织在25个档案中。所有文件已转换为PPTX格式以提高兼容性和减少文件大小。数据集的元数据存储在JSON Lines格式中,包含演示文稿的详细信息,如封面图像、创建时间、描述、难度级别、提取的文本内容、文件URL、文件名、是否适合成人或儿童、主要图像、关联图像、介绍文本、媒体类型、评论可用性、URL slug、主题类别、标签、标题、最后更新时间以及演示文稿页面的URL。数据集分为两部分,每部分提供一个训练分割。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发,无需归属。
创建时间:
2024-11-17
原始信息汇总

Znanio.ru Educational Presentations Dataset Part 1

数据集概述

该数据集包含来自znanio.ru平台的144,280个教育演示文稿,该平台自2009年以来一直是俄罗斯语互联网中教育技术和远程学习的先驱。数据集分为两部分,每部分包含约72,140个演示文稿,分布在25个存档中。所有文件已转换为PPTX格式,以提高兼容性和减小文件大小。

语言

数据集主要为俄语,部分内容为英语,可能还包含其他语言:

  • 俄语 (ru): 大部分演示文稿
  • 英语 (en): 较小部分,主要用于语言学习
  • 其他语言可能存在于演示文稿内容中

数据集结构

数据文件

数据集包括:

  • 演示文稿: 约144,280个PPTX文件(分为两部分,每部分约72,140个)
  • 元数据: 每个演示文稿的元数据存储在JSON Lines格式中

数据字段

每个演示文稿的元数据包括:

  • cover_image: 封面图像的URL(null或字符串)
  • created: 创建时间戳(字符串)
  • description: 演示文稿描述(null或字符串)
  • difficulty: 难度级别(数值)
  • extracted_text: 从演示文稿中提取的文本内容(字符串)
  • file: 原始演示文稿文件的URL(字符串)
  • file_name: 演示文稿文件名(字符串)
  • for_adults: 内容是否适合成人(布尔值)
  • for_children: 内容是否适合儿童(布尔值)
  • image: 主图像的URL(null或字符串)
  • images: 关联图像的详细信息列表(字典列表)
  • intro: 介绍文本(字符串)
  • media_type: 关联的媒体类型(字典列表)
  • recensia_available: 评论可用性(布尔值)
  • slug: URL slug(字符串)
  • subject: 主题类别(字典列表)
  • tags: 关联标签(列表)
  • title: 演示文稿标题(字符串)
  • updated: 最后更新时间戳(字符串)
  • url: 演示文稿在znanio.ru上的页面URL(字符串)

数据分割

数据集分为两部分:

  • 第一部分: 存档00-24(约72,140个演示文稿)
  • 第二部分: 存档25-48(约72,140个演示文稿)

每个部分的文件都在一个训练分割中提供。

文件组织

  • 所有演示文稿已从原始格式(PPT/PPTX/PPSX)转换为PPTX
  • 文件存储在一个目录中以便于访问

附加信息

许可证

该数据集采用Creative Commons Zero (CC0) 许可证,这意味着您可以:

  • 用于任何目的,包括商业项目
  • 随意修改
  • 无需请求许可即可分发

无需署名,但感谢您的支持!

更多关于CC0的信息,请访问:https://creativecommons.org/publicdomain/zero/1.0/

数据集创建者

搜集汇总
数据集介绍
main_image_url
构建方式
Znanio.ru Educational Presentations Dataset Part 1 数据集源自 znanio.ru 平台,该平台自2009年起在俄语互联网中引领教育技术和远程学习的创新。数据集包含144,280份教育演示文稿,分为两部分,每部分约72,140份,涵盖25个档案。所有文件已转换为PPTX格式,以提高兼容性并减少文件大小。在数据收集过程中,由于数据丢失或远程服务器问题,部分文件缺失,导致数据集结构在某些部分可能不完整或不一致。
特点
该数据集以俄语为主,部分内容为英语,可能包含其他语言,主要服务于语言学习目的。每份演示文稿的元数据包括封面图像URL、创建时间戳、描述、难度级别、提取的文本内容、原始文件URL、文件名、是否适合成人或儿童、主要图像URL、相关图像列表、介绍文本、媒体类型、评论可用性、URL slug、主题类别、标签、标题、最后更新时间戳和演示文稿页面URL。数据集分为两部分,每部分包含约72,140份演示文稿,所有文件均存储在单一目录中,便于访问。
使用方法
该数据集适用于文本分类、文档问答和文本检索等任务。用户可通过HuggingFace平台访问数据集,下载PPTX格式的演示文稿及其元数据。由于数据集采用Creative Commons Zero (CC0) 许可证,用户可自由使用、修改和分发数据集,无需许可或署名。建议用户在使用前检查数据完整性,并根据需要处理缺失或不一致的部分。
背景与挑战
背景概述
Znanio.ru Educational Presentations Dataset Part 1 是由俄罗斯教育平台 Znanio.ru 提供的教育资源数据集,涵盖了自2009年以来该平台积累的144,280份教育演示文稿。Znanio.ru 作为俄语互联网中教育技术和远程学习的先驱,为教师、教育工作者、学生和家长提供了丰富的教学资源。该数据集分为两部分,每部分包含约72,140份演示文稿,涵盖了多种学科和主题,旨在支持文本分类、文档问答和文本检索等任务。数据集的多语言特性(主要为俄语和英语)使其在全球范围内具有广泛的应用潜力,尤其是在教育技术研究和多语言处理领域。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,数据集的完整性受到数据丢失和远程服务器问题的影响,部分文件缺失,导致数据集结构存在不一致性。其次,尽管数据集主要包含俄语内容,但其多语言特性(尤其是英语和其他潜在语言)增加了文本处理的复杂性,尤其是在跨语言任务中。此外,演示文稿的格式转换(从PPT/PPTX/PPSX到PPTX)虽然提高了兼容性,但也可能引入格式错误或信息丢失的风险。最后,数据集的规模庞大(超过10万份演示文稿)对存储、处理和分析提出了较高的技术要求,尤其是在大规模文本挖掘和机器学习任务中。
常用场景
经典使用场景
Znanio.ru Educational Presentations Dataset Part 1 数据集在教育技术领域具有广泛的应用,尤其在远程教育和在线学习资源的开发中。该数据集包含了来自znanio.ru平台的14万多个教育演示文稿,涵盖了多种学科和难度级别,适用于教师、学生和教育研究者的教学和学习需求。通过分析这些演示文稿,研究人员可以深入理解教育内容的组织和呈现方式,从而优化教学材料的开发。
衍生相关工作
基于Znanio.ru Educational Presentations Dataset Part 1 数据集,研究人员已经开展了多项经典工作。例如,开发了基于深度学习的教育内容分类模型,能够自动识别演示文稿的学科和难度级别。此外,该数据集还被用于构建跨语言的教育资源检索系统,支持多语言环境下的教育资源整合与共享。这些工作不仅推动了教育技术的发展,也为全球教育资源的普及和优化提供了新的思路。
数据集最近研究
最新研究方向
在数字化教育资源的快速发展背景下,Znanio.ru Educational Presentations Dataset Part 1为教育技术领域的研究提供了丰富的多语言教学演示资源。该数据集的最新研究方向集中在文本分类、文档问答和文本检索等自然语言处理任务上,特别是在多语言环境下的应用。研究者们利用该数据集开发了多种算法,以提高教育内容的自动分类和检索效率,从而支持个性化学习和远程教育的需求。此外,该数据集还被用于探索教育资源的跨语言迁移学习,以促进不同语言背景下的知识共享和教育公平。这些研究不仅推动了教育技术的发展,也为全球教育资源的数字化和智能化提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作