Pashto-Textbooks-PDFs-Corpus

Hugging Face2026-03-27 更新2026-03-28 收录

下载链接：

https://huggingface.co/datasets/tasal9/Pashto-Textbooks-PDFs-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从普什图语教育材料、语法书籍、教科书和文学作品中提取的文本，这些数据来源于多个普什图语网站和PDF资源库。数据集涵盖了多种内容类型，包括语法书籍（12+种标题）、教科书（KPK课程1-12年级，8+个级别）、文学作品（诗歌、故事、散文）以及学术研究（语言学研究论文）。数据统计显示，总页数约2,500+页，独特词汇约50,000+个，文本文件25+个，涵盖多种方言（Kandahari, Kabuli, Waziri, Peshawari）。主要语言为普什图语（پښتو），使用阿拉伯字母（Nastaliq和Naskh）。该数据集适用于语言模型训练、普什图语自然语言处理研究、教育内容分析和方言研究等应用场景。

创建时间：

2026-03-26

原始信息汇总

Pashto-Textbooks-PDFs-Corpus 数据集概述

数据集描述

该数据集包含从各种普什图语网站和PDF资源库中抓取并提取的文本，来源包括普什图语教育材料、语法书、教科书和文学作品。

数据来源

Kitabkhazana.blogspot.com
Taleem360.com (KPK Board textbooks)
Maktabatulishaat.com
ERIC Educational Database
Ketabton.com

内容类型

语法书 - 普什图语撰写的阿拉伯语语法（12+ 种）
教科书 - KPK 课程 1-12 年级（8+ 个级别）
文学作品 - 诗歌、故事、散文
学术研究 - 语言学研究与论文

数据集特征

text: 字符串类型，表示提取的文本内容。
source_url: 字符串类型，表示数据来源的URL。
content_type: 字符串类型，表示内容类型。
page_count: 整数类型（int32），表示页数。
dialect: 字符串类型，表示普什图语方言。
level: 字符串类型，表示级别。

数据集划分

train 划分
- 样本数量：2500
- 数据大小：15000000 字节
- 下载大小：5000000 字节
- 数据集大小：15000000 字节

统计信息

总页数：约 2,500+
唯一词数：约 50,000+
文本文件数：25+
涵盖方言：Kandahari, Kabuli, Waziri, Peshawari

语言信息

主要语言：普什图语 (پښتو)
书写文字：阿拉伯文字（Nastaliq 和 Naskh 体）

使用场景

语言模型训练
普什图语自然语言处理研究
教育内容分析
方言研究

搜集汇总

数据集介绍

构建方式

在普什图语教育资源数字化进程中，该数据集通过系统化网络爬取与内容提取技术构建而成。其核心来源涵盖多个权威在线平台，包括Kitabkhazana.blogspot.com、Taleem360.com的KPK教育委员会教材库、Maktabatulishaat.com、ERIC教育数据库以及Ketabton.com等。数据采集聚焦于普什图语教育材料、语法书籍、教科书及文学作品，通过自动化工具从原始PDF文件中提取文本内容，并依据内容类型、方言变体及教育等级进行结构化标注，最终形成包含约2,500余页文本的标准化语料库。

特点

该数据集展现了普什图语语言资源的多元性与层次性，其内容覆盖语法解析、基础教育至文学创作等多个维度。语料囊括了坎大哈、喀布尔、瓦齐尔与白沙瓦等多种方言变体，同时保留了阿拉伯字母的纳斯赫体与波斯体书写形式。数据集在结构上具备细粒度标注，包括文本来源链接、内容分类、页数统计及教学等级信息，为语言学研究提供了丰富的元数据支持。约五万余独立词汇与跨十二个年级的教材文本，共同构成了一个兼具广度与深度的语言研究样本。

使用方法

在自然语言处理领域，该数据集可作为普什图语语言模型训练的基础语料，支持词法分析、句法解析及机器翻译等任务。研究人员可依据方言标签开展语言变体对比研究，或通过教育等级字段进行教材难度与内容演进分析。使用时应结合内容类型字段筛选特定文类，例如聚焦语法书籍进行语言结构挖掘，或利用文学文本探索文化表达特征。数据集的来源链接为原始文献追溯提供了便利，确保了学术研究的可复现性与透明度。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的研究长期面临数据稀缺的困境。Pashto-Textbooks-PDFs-Corpus数据集由相关研究机构于近年构建，旨在系统性地汇集普什图语的教育材料、语法书籍及文学作品。该数据集的核心研究问题聚焦于为普什图语这一关键但资源有限的语言提供高质量的文本语料，以支持语言模型训练、方言研究及教育内容分析。通过整合来自多个教育网站与PDF库的文本，该数据集不仅丰富了普什图语的数字资源，也为推动南亚地区语言技术发展及文化传承提供了重要基础。

当前挑战

该数据集致力于解决普什图语自然语言处理中的核心挑战，即因数据匮乏导致的模型性能受限问题，具体涉及文本分类、机器翻译及方言识别等任务。在构建过程中，挑战主要源于数据源的分散性与异构性，包括从不同网站和PDF格式中提取并清洗文本的技术复杂性，以及处理普什图语多种方言（如Kandahari、Kabuli）和阿拉伯文字体变体（Nastaliq与Naskh）所带来的语言标准化难题。此外，确保教育材料的版权合规性与内容质量的一致性，也增加了数据集创建的难度。

常用场景

经典使用场景

在自然语言处理领域，低资源语言的研究常面临数据稀缺的挑战。Pashto-Textbooks-PDFs-Corpus作为普什图语教育材料的文本集合，其经典使用场景在于为普什图语的语言模型训练提供高质量、结构化的语料。该数据集涵盖了从小学到高中的教科书、语法书籍以及文学作品，使得研究者能够利用其丰富的文本内容，构建和优化针对普什图语的预训练模型或微调任务，从而推动该语言在机器翻译、文本生成等方向的技术发展。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，在低资源语言建模领域，研究者利用其进行普什图语BERT或GPT风格模型的预训练，探索跨语言迁移学习的效果。此外，在方言识别和分类任务中，该数据集为构建普什图语方言图谱提供了数据支撑，相关成果已应用于语言资源评估和语料库语言学项目，进一步拓展了多语言自然语言处理的研究边界。

数据集最近研究