KS-PRET-5M

arXiv2026-04-13 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/Omarrran/KS-PRET-5M_5_million_kashmiri_Pretrainning_LLM_dataset_12M_tokens_2026

下载链接

链接失效反馈

官方服务：

资源简介：

KS-PRET-5M是由Haq Nawaz Malik和Nahfid Nissar创建的克什米尔语预训练数据集，包含509万单词和1213万子词标记，是目前最大的公开克什米尔语数据集。数据集来源包括从InPage格式恢复的数字化档案和文学材料，以及Unicode原生的网络文本，涵盖文学、新闻、传记、诗歌、宗教文献和学术写作等多种体裁。通过十一阶段清洗流程处理，实现了99.65%的克什米尔语脚本纯度，显著降低了天城体污染。该数据集旨在支持克什米尔语的语言模型预训练、分词器训练和计算语言学研究，为这一低资源语言提供关键数据基础设施。

KS-PRET-5M is a Kashmiri pre-trained dataset created by Haq Nawaz Malik and Nahfid Nissar, consisting of 5.09 million words and 12.13 million subword tokens, making it the largest publicly available Kashmiri dataset to date. The dataset is derived from two categories of materials: digitized archives and literary materials recovered from InPage format, as well as Unicode-native web texts, spanning a wide range of genres including literature, news, biographies, poetry, religious texts, and academic writing. Processed via an eleven-stage cleaning pipeline, it achieves a 99.65% Kashmiri script purity and significantly reduces Devanagari script contamination. This dataset aims to support pre-training of Kashmiri language models, tokenizer training, and computational linguistics research, providing critical data infrastructure for this low-resource language.

创建时间：

2026-04-13

搜集汇总

数据集介绍

构建方式

在克什米尔语自然语言处理资源稀缺的背景下，KS-PRET-5M数据集的构建采用了双源融合策略。其核心来源为通过Malik开发的转换器从InPage桌面出版格式中恢复的数字化档案与文学材料，涵盖文学、新闻、传记、诗歌、宗教文献及学术写作等多种文体，确保了文本的编辑质量与正字法完整性。同时，数据集纳入了从克什米尔语网络资源直接采集的Unicode原生文本，以补充当代语言特征。所有文本均经过一个包含十一阶段的清洗流程处理，该流程通过编码修复、标记移除、脚本过滤及精确去重等操作，实现了高达0.9965的平均克什米尔脚本比例，显著降低了德梵纳格里文等外来字符的污染。

特点

作为目前公开可用的最大规模克什米尔语预训练数据集，KS-PRET-5M拥有509万单词和约1213万子词标记，其词汇量达到29.5万独特词型。数据集在脚本纯净度方面表现卓越，经过清洗后德梵纳格里字符仅残留146个，几乎完全保留了克什米尔语纳斯达利格脚本的正字特征。通过实证测量，其子词标记化比率达到2.383标记每词，显著高于以往基于非克什米尔波斯-阿拉伯语系语言的估算值，这反映了克什米尔语正式文本中哈拉卡特（diacritics）的高密度特性。数据集的类型-标记比率为0.0580，且包含14万罕用词，充分覆盖了该语言丰富的形态变化与复杂句法结构。

使用方法

KS-PRET-5M以CC BY 4.0许可发布，呈现为单一的连续文本流格式，便于直接整合至预训练流程。该数据集主要支持克什米尔语语言模型的预训练，为Transformer架构模型提供大规模、高质量的文本语料。研究人员可将其用于训练克什米尔语专用的子词标记化器，以优化标记效率并降低片段化程度。同时，数据集适用于计算语言学领域的实证研究，如词汇统计分析、形态学探索及跨语言比较。用户可通过Hugging Face Datasets Hub获取数据，并利用其连续流格式无缝接入主流训练框架，无需额外预处理即可进行全上下文窗口的模型训练。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的数字化基础设施长期匮乏，克什米尔语作为拥有约七百万母语使用者的达尔德语支印欧语系语言，其文学传统虽跨越数世纪，却在现代计算语言学资源中处于严重边缘化地位。2026年，研究人员Haq Nawaz Malik与Nahfid Nissar构建了KS-PRET-5M数据集，旨在解决克什米尔语预训练数据稀缺的核心问题。该数据集汇集了五百余万词汇，涵盖文学、新闻、传记、诗歌、学术著作及宗教文献等多类体裁，其独特价值在于成功恢复了因InPage专有编码系统而长期被封存的高质量文本，为克什米尔语的语言模型预训练、分词器构建及计算语言学研究提供了关键资源，显著推动了该语言在人工智能时代的数字化进程。

当前挑战

KS-PRET-5M数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，克什米尔语作为低资源语言，其核心挑战在于缺乏标准化评估基准与监督微调数据集，如下游任务所需的问答、命名实体识别等资源，这限制了预训练模型在实际应用中的性能评估与适配。构建过程中的主要障碍源于历史技术遗留问题：数十年来大量高质量克什米尔语文献使用InPage桌面出版系统存储，其专有字符编码与Unicode不兼容，导致文本无法被常规网络爬虫获取；此外，数据清洗需应对Unicode原生网络文本中的编码噪声、代码混合及变音符号缺失，并通过十一阶段清洗流程实现高达0.9965的脚本纯净度，以分离那斯塔利克字母与天城文等混合脚本干扰。

常用场景

经典使用场景

在低资源自然语言处理领域，KS-PRET-5M数据集为克什米尔语的大规模预训练提供了核心语料支持。该数据集通过整合文学、新闻、传记、诗歌、学术著作及宗教文献等多种文体，构建了覆盖丰富语言风格的文本集合，使得研究者能够基于此训练具有广泛语言理解能力的预训练模型。其高纯度的纳斯塔利克脚本文本确保了模型在克什米尔语正式书写规范下的学习效果，为后续的词汇表征和句法分析奠定了坚实基础。

解决学术问题

该数据集有效解决了克什米尔语在计算语言学研究中长期面临的数据稀缺问题。通过从InPage格式中恢复高质量文本并融合网络原生内容，KS-PRET-5M填补了主流多语种预训练语料中克什米尔语的空白，为语言模型的跨语言迁移学习提供了可靠资源。其精确的脚本净化流程和实证测量的子词分词比率，纠正了以往基于非克什米尔语类比所产生的数据规模误估，为低资源语言的语料构建方法学提供了重要参考。

衍生相关工作

围绕KS-PRET-5M数据集，已衍生出多项经典研究工作。例如，基于该数据集的克什米尔语专用子词分词器训练，能够显著降低分词片段化程度，提升模型效率。同时，该数据集也为构建克什米尔语的监督微调基准（如问答系统、命名实体识别任务）提供了数据基础，推动了KS-LIT-3M等早期语料库的扩展，并激发了针对纳斯塔利克脚本语言的多模态处理研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集