five

znanio-presentations-part2

收藏
Hugging Face2024-11-17 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/nyuuzyou/znanio-presentations-part2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自znanio.ru平台的144,280个教育演示文稿,分为两部分,每部分约72,140个演示文稿,分布在25个档案中。所有文件已转换为PPTX格式以提高兼容性和减少文件大小。数据集主要为俄语,部分内容为英语,可能包含其他语言。数据集结构包括演示文稿和元数据,元数据以JSON Lines格式存储,包含多个字段如封面图像URL、创建时间戳、描述、难度级别、提取的文本内容等。数据集分为两部分,每部分提供一个训练分割。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发,无需归属。

This dataset contains 144,280 educational presentations sourced from the znanio.ru platform. It is partitioned into two subsets, each holding approximately 72,140 presentations, which are distributed across 25 archives. All files have been converted to PPTX format to enhance compatibility and minimize file size. The majority of the dataset is in Russian, with some content in English, and may additionally include other languages. The dataset structure consists of two core components: presentations and metadata. The metadata is stored in JSON Lines format, featuring multiple fields including cover image URL, creation timestamp, description, difficulty level, extracted text content, and more. The dataset is split into two subsets, each accompanied by a dedicated training split. It is released publicly under the CC0 license, permitting unrestricted use, modification, and distribution without requiring attribution.
创建时间:
2024-11-17
原始信息汇总

Znanio.ru Educational Presentations Dataset Part 2

数据集概述

该数据集包含144,280个来自znanio.ru平台的教学演示文稿,该平台自2009年以来一直是俄语互联网上教育技术和远程学习的先驱。数据集分为两部分,每部分包含约72,140个演示文稿,分布在25个存档中。所有文件已转换为PPTX格式,以提高兼容性和减小文件大小。

语言

数据集主要为俄语,部分内容为英语,可能还包含其他语言:

  • 俄语 (ru):大多数演示文稿
  • 英语 (en):较小部分,主要用于语言学习目的
  • 其他语言可能存在于演示文稿内容中

数据集结构

数据文件

数据集包括:

  • 演示文稿:约144,280个PPTX文件(分为两部分,每部分约72,140个)
  • 元数据:每个演示文稿的元数据以JSON Lines格式存储

数据字段

每个演示文稿的元数据包括:

  • cover_image:封面图像的URL(null或字符串)
  • created:创建时间戳(字符串)
  • description:演示文稿描述(null或字符串)
  • difficulty:难度级别(数值)
  • extracted_text:从演示文稿中提取的文本内容(字符串)
  • file:原始演示文稿文件的URL(字符串)
  • file_name:演示文稿文件名(字符串)
  • for_adults:内容是否适合成人(布尔值)
  • for_children:内容是否适合儿童(布尔值)
  • image:主图像的URL(null或字符串)
  • images:相关图像及其详细信息的列表(字典列表)
  • intro:介绍文本(字符串)
  • media_type:相关媒体类型(字典列表)
  • recensia_available:评论是否可用(布尔值)
  • slug:URL slug(字符串)
  • subject:主题类别(字典列表)
  • tags:相关标签(列表)
  • title:演示文稿标题(字符串)
  • updated:最后更新时间戳(字符串)
  • url:znanio.ru上演示文稿页面的URL(字符串)

数据分割

数据集分为两部分:

  • 第一部分:存档00-24(约72,140个演示文稿)
  • 第二部分:存档25-48(约72,140个演示文稿)

每个部分的文件均提供在单个训练分割中。

文件组织

  • 所有演示文稿已从原始格式(PPT/PPTX/PPSX)转换为PPTX
  • 文件存储在单个目录中以便于访问

附加信息

许可证

该数据集采用Creative Commons Zero (CC0) 许可证,属于公共领域。这意味着您可以:

  • 用于任何目的,包括商业项目
  • 随意修改
  • 无需请求许可即可分发

无需署名,但表示感谢!

更多关于CC0的信息,请访问:https://creativecommons.org/publicdomain/zero/1.0/

数据集创建者

搜集汇总
数据集介绍
main_image_url
构建方式
Znanio.ru Educational Presentations Dataset Part 2 数据集构建于 znanio.ru 平台,该平台自2009年起在俄语互联网中引领教育技术和远程学习的发展。数据集包含144,280份教育演示文稿,分为两部分,每部分约72,140份演示文稿,并组织成25个档案。所有文件已转换为PPTX格式,以提高兼容性并减少文件大小。在数据收集过程中,由于数据丢失或远程服务器问题,部分文件缺失,导致数据集结构在某些部分可能不完整或不一致。
特点
该数据集以俄语为主,部分内容为英语,可能包含其他语言。每份演示文稿的元数据包括封面图像URL、创建时间戳、描述、难度级别、提取的文本内容、原始文件URL、文件名、是否适合成人或儿童、主要图像URL、相关图像列表、介绍文本、媒体类型、评论可用性、URL slug、主题类别、标签、标题、最后更新时间戳以及演示文稿页面URL。数据集分为两部分,每部分包含约72,140份演示文稿,所有文件均以PPTX格式存储,便于访问。
使用方法
该数据集适用于文本分类、文档问答和文本检索等任务。用户可以通过HuggingFace平台访问数据集,下载PPTX格式的演示文稿及其元数据。元数据以JSON Lines格式存储,便于进一步分析和处理。数据集采用Creative Commons Zero (CC0) 许可证,允许用户自由使用、修改和分发,无需授权,但鼓励用户在使用时给予适当的认可。
背景与挑战
背景概述
Znanio.ru Educational Presentations Dataset Part 2 是由俄罗斯教育平台 Znanio.ru 提供的教育资源数据集,该平台自2009年起致力于推动俄语互联网中的教育技术与远程学习发展。该数据集包含144,280份教育演示文稿,分为两部分,每部分约72,140份,涵盖了多种学科和主题。这些演示文稿主要服务于教师、教育工作者、学生和家长,旨在提供高质量的教育资源。数据集以PPTX格式存储,便于兼容性和文件大小优化。该数据集的创建者为nyuuzyou,其发布进一步推动了教育技术领域的研究与应用。
当前挑战
Znanio.ru Educational Presentations Dataset Part 2 在构建与应用过程中面临多重挑战。首先,数据集中部分文件因数据丢失或远程服务器问题而缺失,导致数据集结构不完整或不一致,这为数据分析和模型训练带来了不确定性。其次,数据集以多语言形式呈现,主要语言为俄语,同时包含少量英语及其他语言内容,这种多语言特性增加了文本分类、文档问答和文本检索任务的复杂性。此外,数据集中包含的演示文稿涉及多种学科和难度级别,如何有效提取和组织这些信息以支持教育技术研究,仍需进一步探索。
常用场景
经典使用场景
在教育和学术研究领域,Znanio.ru Educational Presentations Dataset Part 2 数据集被广泛应用于教学资源的开发和优化。研究者利用该数据集中的多语言教育演示文稿,进行文本分类、文档问答和文本检索等任务,以提升教育内容的质量和可访问性。特别是在远程教育和在线学习平台中,该数据集为教师和学生提供了丰富的教学材料,支持多样化的教学需求。
解决学术问题
该数据集解决了教育技术领域中的多个关键问题,如多语言教育资源的整合与优化、教学内容的自动分类与检索、以及教育材料的质量评估。通过提供大量结构化的教育演示文稿,研究者能够深入分析教学内容的有效性,开发智能化的教育工具,从而提升教学效率和学生的学习体验。此外,该数据集还为跨语言教育研究提供了宝贵的数据支持,推动了教育技术的全球化发展。
衍生相关工作
基于Znanio.ru Educational Presentations Dataset Part 2 数据集,研究者们开展了多项经典工作。例如,开发了基于深度学习的文本分类模型,用于自动识别和分类教育演示文稿的主题和难度级别。此外,该数据集还被用于构建文档问答系统,支持用户通过自然语言查询获取相关的教育内容。这些工作不仅推动了教育技术的发展,还为其他领域的文本处理研究提供了重要的参考和借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作