turkic-nlp-corpus
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/Nigina-Rinatova/turkic-nlp-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言文本语料库,涵盖突厥语系及周边地区的多种语言,包括阿塞拜疆语(az)、巴什基尔语(ba)、哈萨克语(kk)、吉尔吉斯语(ky)、土库曼语(tk)、土耳其语(tr)、鞑靼语(tt)、维吾尔语(ug)和乌兹别克语(uz)等。每个语言配置包含四个核心特征字段:text(原始文本内容)、lang(ISO语言代码)、script(文字体系,如拉丁或西里尔字母)和source(数据来源标识)。数据集规模因语言而异,例如哈萨克语(kk)配置包含约44.7万条样本,阿塞拜疆语(az)配置约15.9万条,乌兹别克语(uz)配置约44.2万条。部分语言还提供了基于CC100多语言网络语料库的子集变体(如az_cc100系列)。该数据集适用于多语言自然语言处理任务,如语言建模、机器翻译、文本分类等,尤其适合针对突厥语系语言的模型训练与研究。
This dataset is a multilingual text corpus covering various languages of the Turkic language family and surrounding regions, including Azerbaijani (az), Bashkir (ba), Kazakh (kk), Kyrgyz (ky), Turkmen (tk), Turkish (tr), Tatar (tt), Uyghur (ug), and Uzbek (uz). Each language configuration includes four core feature fields: text (original text content), lang (ISO language code), script (writing system, such as Latin or Cyrillic script), and source (data source identifier). The dataset size varies by language; for example, the Kazakh (kk) configuration contains approximately 447,000 samples, Azerbaijani (az) about 159,000, and Uzbek (uz) about 442,000. Some languages also provide subset variants based on the CC100 multilingual web corpus (e.g., az_cc100 series). This dataset is suitable for multilingual natural language processing tasks, such as language modeling, machine translation, text classification, and is particularly well-suited for model training and research on Turkic languages.
创建时间:
2026-05-13
原始信息汇总
好的,这是关于数据集 turkic-nlp-corpus 的详细总结。
数据集概述:turkic-nlp-corpus
该数据集是一个专门用于突厥语系自然语言处理的文本语料库。它汇集了多种突厥语族语言的文本数据,旨在为相关语言的 NLP 研究提供资源。
语言与语种配置
数据集包含以下语言子集,每个子集对应一个独立的配置(config):
| 配置名 | 语言 | 说明 |
|---|---|---|
az |
阿塞拜疆语 | 主要语料 |
az_cc100_* |
阿塞拜疆语 | 从 CC-100 语料库中提取的 33 个分片 |
ba |
巴什基尔语 | 主要语料 |
kk |
哈萨克语 | 主要语料 |
kk_cc100_* |
哈萨克语 | 从 CC-100 语料库中提取的 19 个分片 |
ky |
吉尔吉斯语 | 主要语料 |
ky_cc100 |
吉尔吉斯语 | 从 CC-100 语料库中提取的完整数据 |
tk |
土库曼语 | 主要语料 |
tr |
土耳其语 | 主要语料 |
tr_cc100 |
土耳其语 | 从 CC-100 语料库中提取的样本 |
tt |
鞑靼语 | 主要语料 |
ug |
维吾尔语 | 主要语料 |
ug_cc100 |
维吾尔语 | 从 CC-100 语料库中提取的完整数据 |
uz |
乌兹别克语 | 主要语料 |
uz_cc100 |
乌兹别克语 | 从 CC-100 语料库中提取的完整数据 |
数据格式与特征
所有配置的数据结构完全一致,每条数据包含以下四个字段:
text: 文本内容(字符串类型)。lang: 语言标签(字符串类型)。script: 文字系统标签(字符串类型)。source: 数据来源标签(字符串类型)。
数据规模
数据集仅包含 train(训练)分割。各主要语言配置的规模概览如下:
- 阿塞拜疆语 (az): 共 158,878 个样本,数据集大小约 386 MB。
- 哈萨克语 (kk): 共 446,770 个样本,数据集大小约 683 MB。
- 吉尔吉斯语 (ky): 共 76,171 个样本,数据集大小约 144 MB。
- 土耳其语 (tr): 共 382,390 个样本,数据集大小约 862 MB。
- 鞑靼语 (tt): 共 907,902 个样本,数据集大小约 868 MB。
- 乌兹别克语 (uz): 共 442,444 个样本,数据集大小约 950 MB。
其他配置(如 tk 土库曼语、ug 维吾尔语等)的样本量相对较小。来自 CC-100 语料库的配置规模各异,其中 ky_cc100(吉尔吉斯语)、uz_cc100(乌兹别克语)和部分哈萨克语/阿塞拜疆语分片数据量较大。
搜集汇总
数据集介绍

构建方式
Turkic-NLP-Corpus是一个面向突厥语系自然语言处理研究的大规模多语种语料库。该语料库涵盖了阿塞拜疆语、巴什基尔语、哈萨克语、吉尔吉斯语、土库曼语、土耳其语、鞑靼语、维吾尔语和乌兹别克语等九个突厥语族语言。其构建方式融合了多种数据来源:首先,从Common Crawl(CC100)语料库中筛选出各语言的高质量文本片段,并按照资源丰富程度进行划分;其次,整合了来自维基百科及其他公开语料库的网页文本。每个语言构造了完整的训练集,并针对资源丰富的语言(如阿塞拜疆语、哈萨克语)准备了多个CC100子配置以增加数据多样性。每个样本包含文本内容、语言标识、文字系统和来源字段。
特点
该语料库具有显著的语言覆盖广度与规模优势,数据集总量超过15GB,涵盖了从稀有语言(如土库曼语仅3421条样本)到资源丰富语言(如土耳其语拥有38万余条样本)的不同层次。尤其值得强调的是,它为稀缺语言如巴什基尔语和土库曼语提供了前所未有的训练数据,弥补了低资源突厥语言NLP研究的空白。每个语言配置均提供单一训练集格式,便于直接用于语言模型的预训练与微调。此外,数据集保留了原始来源信息,支持对不同类型的语料进行差异化分析。其设计兼顾了数据质量与规模,为跨语言迁移学习和多语言模型评估提供了坚实的基础。
使用方法
使用该数据集可通过Hugging Face Datasets库便捷加载。用户需根据目标语言选择对应的配置名称,例如加载土耳其语主数据集可指定'config_name="tr"',加载哈萨克语的某个CC100子集则可指定'config_name="kk_cc100_1"'。每个配置均通过data_files参数指向train-*文件,仅包含训练集,直接可被用于无监督预训练或掩码语言模型训练。各样本包含'text'、'lang'、'script'和'source'四个字段,其中'text'字段为原始文本,可用于语言模型输入;'lang'字段可辅助多语言任务中的数据分层。研究人员可根据实际需求合并不同配置或按照来源进行筛选,以构建定制化的训练语料。
背景与挑战
背景概述
突厥语系作为横跨欧亚大陆的语族,涵盖土耳其语、哈萨克语、乌兹别克语等十余种语言,在自然语言处理领域长期面临语料匮乏的困境。为弥补这一空白,Turkic NLP Corpus数据集应运而生,由相关研究团队于近年来构建并发布在HuggingFace平台。该数据集围绕提升突厥语言资源的可用性这一核心问题,系统整合了阿塞拜疆语、巴什基尔语、哈萨克语、吉尔吉斯语、土耳其语、鞑靼语、维吾尔语、乌兹别克语以及土库曼语等多种语言的大规模文本,并特别纳入了源于CC-100项目的分片数据,以扩充语料规模。这一举措不仅为低资源突厥语言的机器翻译、语言建模等任务提供了宝贵的基准资源,更推动了多元语言生态的学术研究,对全球语言多样性保护具有深远意义。
当前挑战
Turkic NLP Corpus数据集面临的核心挑战首先在于领域问题,即突厥语言作为典型低资源语种,其形态丰富、语法复杂,加之方言与书写体系的多样(如西里尔字母与拉丁字母的混用),导致通用自然语言处理模型难以有效泛化,亟需针对性语料以提升表征学习与下游任务性能。在构建层面,数据采集与清洗构成重大难题:来自互联网的原始语料噪音显著,包含编码错误、重复内容及非目标语言片段,需设计精细的过滤流程;同时,各语言数据规模极不均衡,如土库曼语仅含三千余条样本,而乌兹别克语与鞑靼语则达到数十万级别,这种不平衡性对模型训练的公平性与鲁棒性构成了严峻考验。
常用场景
经典使用场景
Turkic-NLP Corpus作为涵盖阿塞拜疆语、巴什基尔语、哈萨克语、吉尔吉斯语、土库曼语、土耳其语、鞑靼语、维吾尔语和乌兹别克语等突厥语族语言的综合性文本语料库,其经典使用场景集中在跨语言自然语言处理模型的预训练与微调。研究者可依托该语料库统一的多语言文本特征(包含语种、文字系统和来源信息),构建面向低资源突厥语言的词向量、语言模型或序列标注系统,有效缓解单一语言数据稀疏导致的模型性能瓶颈。
解决学术问题
该数据集系统性地回应了突厥语族语言在自然语言处理领域长期面临的资源匮乏问题。通过整合维基百科、新闻语料与CC-100大规模网络爬取数据,它为学术研究提供了首个覆盖多种突厥语言的标准化训练基准,解决了跨语言迁移学习中因标注数据不足而难以验证模型泛化能力的困境。其分语种、分来源的细粒度配置设计,推动了低资源场景下语言建模、机器翻译和形态句法分析等核心任务的实证研究向纵深发展。
衍生相关工作
围绕Turkic-NLP Corpus衍生出多项具有影响力的经典研究。在预训练模型领域,基于该语料训练的TurkicBERT、XLM-R多语言变体等模型显著提升了突厥语言的词义消歧与命名实体识别性能。在低资源机器翻译方面,研究者利用其CC-100子集作为大规模单语数据训练逆桥接模型,并结合公开双语语料实现了乌兹别克语-英语翻译质量的大幅跃升。此外,该语料库还支撑了突厥语言形态分析工具的开发工作,如基于子词嵌入的词干提取与词性标注系统。
以上内容由遇见数据集搜集并总结生成



