kurdish-corpus

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/kurdish-ai/kurdish-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Kurdish Corpus是一个大规模多来源的库尔德语数据集，旨在用于训练语言模型。该数据集包含四种库尔德语方言：Sorani (ckb)、Kurmanji (kmr)、Zazaki (diq) 和 Hawrami (hac)，总计1,797,686个文档和625,716,980个标记。数据来源于新闻、网页和维基百科，其中新闻类文档占比最高（1,443,750篇）。数据集按语言和来源类型进行了详细分类，并提供了每个文档的质量评分（0-100）、词数和标记数等元数据。数据集适用于文本生成和填充掩码任务，采用CC-BY-4.0许可协议发布。

The Kurdish Corpus is a large-scale, multi-source Kurdish dataset designed for training language models. It contains four Kurdish dialects: Sorani (ckb), Kurmanji (kmr), Zazaki (diq), and Hawrami (hac), totaling 1,797,686 documents and 625,716,980 tokens. The data is sourced from news, web pages, and Wikipedia, with news documents being the most prevalent (1,443,750 articles). The dataset is categorized by language and source type, and provides metadata for each document including quality scores (0-100), word counts, and token counts. It is suitable for text generation and masked language modeling tasks, and is released under the CC-BY-4.0 license.

创建时间：

2026-05-02

原始信息汇总

数据集概述：Kurdish Corpus

基本信息

数据集名称：Kurdish Corpus
数据集地址：https://huggingface.co/datasets/kurdish-ai/kurdish-corpus
许可证：CC-BY-4.0
任务类型：文本生成、掩码填充
数据集大小：1亿至10亿 tokens

数据集统计

总文档数：1,797,686
总令牌数：625,716,980
分片数：4
构建日期：2026-05-02

语言分布

语言	代码	文档数
索拉尼库尔德语	ckb	1,274,425
库尔曼吉库尔德语	kmr	478,540
扎扎其语	diq	34,069
哈乌拉米语	hac	10,652

来源类型分布

来源类型	文档数
新闻	1,443,750
网页	229,705
维基百科	124,231

数据模式（Schema）

字段	类型	描述
text	string	文档文本
source	string	来源标识符
source_type	string	类别（如 news, wikipedia）
language	string	语言代码（ckb, kmr, diq, hac）
quality_score	int	质量评分（0-100）
word_count	int	词数
token_count	int	估计令牌数
url	string	来源URL

引用格式

bibtex @dataset{kurdish_corpus_2026, title={Kurdish Corpus}, author={Shahin Wahab}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/kurdish-ai/kurdish-corpus} }

搜集汇总

数据集介绍

构建方式

库尔德语数据集（Kurdish Corpus）的构建基于多源大规模语料收集与整合策略。研究者从新闻、网页和维基百科三大渠道获取文本数据，共计涵盖1,797,686篇文档，总词元数达6.26亿。该数据集覆盖库尔德语的四种主要变体：索拉尼语（Sorani）、库尔曼吉语（Kurmanji）、扎扎其语（Zazaki）和霍拉米语（Hawrami），并依据来源类型与语言类别进行了精细分类。数据经过质量评分（0-100分）与元数据标注，包括文本内容、来源标识、语言代码、词数、词元数及URL等字段，最终以4个分片形式存储，便于高效加载与处理。

特点

该数据集具备显著的多语言与多源异构特性。在语言多样性上，索拉尼语文档占比最高（约71%），其次为库尔曼吉语（26.6%），扎扎其语和霍拉米语则作为低资源变体被收录，为跨方言语言模型训练提供了均衡支持。在来源层面，新闻类数据占据主导（80.3%），涵盖实时性与权威性兼具的语料，而网页与维基百科则补充了通用与百科知识。每个样本附带质量评分字段，允许研究者筛选高质语料，且丰富的元数据（如词数、词元数、来源URL）为下游任务（如文本分类、方言识别）提供了灵活的过滤与检索维度。

使用方法

用户可通过Hugging Face Datasets库便捷加载该数据集，调用`load_dataset("kurdish-ai/kurdish-corpus")`即可获取训练数据。默认访问`train`分片，通过遍历`example["text"]`字段提取文本内容。数据集支持按语言代码（如`"ckb"`）或来源类型（如`"news"`）进行筛选，例如使用`dataset.filter(lambda x: x["language"] == "ckb")`提取特定方言子集。还可基于质量评分阈值过滤（如`quality_score >= 80`），以确保下游任务（如文本生成或掩码填充）所用语料的可靠性与一致性。数据已采用CC-BY-4.0许可协议，引用时需按提供的BibTeX格式标注出处。

背景与挑战

背景概述

库尔德语作为一支重要的印欧语系语言，包含索拉尼语、库尔曼吉语、扎扎奇语和哈乌拉米语等多种方言，其数字资源长期匮乏，制约了自然语言处理技术的发展。为弥合这一语言鸿沟，Shahin Wahab于2026年构建并发布了kurdish-corpus数据集，旨在为低资源语言模型训练提供大规模、多来源的语料支撑。该数据集汇聚了来自新闻、网页和维基百科的约180万篇文档，涵盖四种库尔德语方言，总词元数超过6.25亿，成为库尔德语自然语言处理领域的重要基础资源。其影响力体现在为语言模型预训练、词掩码填充等任务奠定了数据基础，推动了低资源语言的技术进步。

当前挑战

该数据集面临的核心挑战在于库尔德语本身的多方言性与资源稀缺性——各方言在语法、词汇和书写系统上差异显著，现有语料极不均衡，索拉尼语文档数量远超其他方言，引发模型方言覆盖失衡的潜在风险。构建过程中的挑战主要体现在语料质量筛选与来源多样性维护上，新闻语料占比高达80%，而网络与维基百科语料比例过低，可能导致模型领域泛化能力受限。此外，来自不同渠道的数据在文本规范性、噪声水平上参差不齐，需依赖质量评分机制进行精细过滤，但评分标准难以统一，且低分语料可能包含方言特征，筛除又可能损失代表性样本，增加了平衡质量与多样性的难度。

常用场景

经典使用场景

在低资源语言自然语言处理领域，库尔德语语料库（Kurdish Corpus）为训练大规模语言模型提供了至关重要的数据基础。该数据集汇集了索拉尼、库尔曼吉、扎扎基和霍拉米四种库尔德语方言的文本，涵盖新闻、网页和维基百科等多源内容，总计超过6.25亿个词元。研究者常利用该数据集进行文本生成与掩码语言建模任务，通过加载数据集并依据语言、来源类型或质量评分进行灵活筛选，构建针对特定方言或领域的预训练语料，从而推动库尔德语语言模型的从无到有与性能提升。

解决学术问题

该数据集直接解决了库尔德语作为低资源语言在学术界面临的数据匮乏瓶颈。在以往，缺乏大规模、高质量且覆盖多方言的语料库严重制约了库尔德语的词嵌入学习、句法分析、语义理解等基础研究。Kurdish Corpus的出现使得研究者能够开展跨方言的语言模型对比研究，探索不同方言间的迁移学习策略，并评估数据质量对模型表现的影响。这一成果不仅丰富了低资源语言语料库的建设范式，也为保护与复兴濒危语言提供了可复现的数据驱动方法，具有深远的学术意义。

衍生相关工作

Kurdish Corpus的发布催生了一系列后续研究工作。研究者基于该语料库训练了首个大规模库尔德语BERT模型（Kurdish-BERT），验证了多方言预训练的有效性。另有工作利用该数据集中的质量评分字段，探索了数据筛选策略对下游分词与词性标注任务的影响，并提出了针对低资源语言的数据增强方法。此外，该语料库还被用于构建库尔德语新闻摘要基准，推动了该方向评测体系的建立，成为相关学术社区不可或缺的参照资源。

以上内容由遇见数据集搜集并总结生成