tascib/turkish-llm-dataset
收藏Hugging Face2026-04-18 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/tascib/turkish-llm-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-4.0
language:
- tr
tags:
- pretraining
- turkish
- nlp
- language-modeling
size_categories:
- 100M<n<1B
---
# Turkish Pretraining Corpus
## Dataset Description
This dataset is a Turkish pretraining corpus created by combining BellaTurca (excluding ForumSohbetleri), Cosmos-Turkish-Corpus-v1.0, and FineWeb-2 Turkish Categorized, followed by cleaning, normalization, and deduplication. It is intended for the development, training, and evaluation of Turkish language models.
This dataset was prepared as part of a capstone project conducted by a group of students from Sabancı University.
## Data Sources
This dataset was constructed from the following sources:
- BellaTurca
https://huggingface.co/datasets/turkish-nlp-suite/BellaTurca
- Cosmos-Turkish-Corpus-v1.0
https://huggingface.co/datasets/ytu-ce-cosmos/Cosmos-Turkish-Corpus-v1.0
- FineWeb-2 Turkish Categorized
https://huggingface.co/datasets/altaidevorg/fineweb-2-turkish-categorized
- FineWeb-2 (upstream dataset)
https://huggingface.co/datasets/HuggingFaceFW/fineweb-2
## Intended Use
This dataset is primarily intended for the following purposes:
- Turkish language model pretraining
- Continual pretraining
- Turkish NLP research
- Academic and experimental use
This dataset is more suitable for raw text pretraining than for supervised fine-tuning (SFT), as it does not consist of instruction-response pairs.
## Preprocessing
- Merging the BellaTurca, Cosmos-Turkish-Corpus-v1.0, and FineWeb-2 Turkish Categorized corpora
- Cleaning inconsistent or malformed samples
- Removing duplicate records
- Applying additional filtering and normalization where necessary
## License
This dataset is released under the **CC BY-SA 4.0** license for the original composition, preprocessing, and documentation created by this project.
Notes:
- The source datasets remain subject to their original license terms.
- FineWeb-2 and FineWeb-2 Turkish Categorized are subject to the **ODC-By 1.0** license and require proper attribution.
- Proper attribution is required for all included sources.
- Please respect the upstream license terms when using, redistributing, or modifying this dataset.
## Limitations
- May contain noise due to automatic collection and merging
- May inherit biases from the source datasets
- Additional cleaning and validation may be required depending on the use case
## Acknowledgements
We would like to thank the creators of the following datasets:
- BellaTurca contributors
- Cosmos AI Research Group
- HuggingFaceFW / FineWeb-2 contributors
- altaidevorg / FineWeb-2 Turkish Categorized contributors
## Disclaimer
No responsibility or liability is accepted for the use of this dataset.
提供机构:
tascib
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量预训练语料库是推动语言模型发展的关键。土耳其语预训练语料库的构建过程体现了系统化的数据整合与精炼方法。该数据集通过合并BellaTurca(排除ForumSohbetleri部分)、Cosmos-Turkish-Corpus-v1.0以及FineWeb-2 Turkish Categorized三个核心来源,形成了一个综合性的文本集合。随后进行了严格的数据清洗流程,包括去除不一致或格式错误的样本、消除重复记录,并实施了必要的过滤与规范化处理,最终形成了适用于土耳其语模型预训练的纯净语料。
使用方法
在土耳其语自然语言处理研究中,该数据集为模型开发提供了重要的基础支持。研究者可直接将其用于土耳其语语言模型的预训练阶段,或作为持续预训练的补充语料。学术机构与实验团队可借助该资源开展土耳其语相关的NLP研究,探索语言理解与生成任务的新方法。使用过程中需注意遵守CC BY-SA 4.0许可协议,并对上游数据源进行适当署名,特别是遵循FineWeb-2系列的ODC-By 1.0许可要求。
背景与挑战
背景概述
随着自然语言处理技术的快速发展,针对特定语言的大规模预训练语料库成为提升语言模型性能的关键基础。土耳其语作为全球使用人数众多的语言之一,其数字资源的系统性整理与高质量语料库的构建,对于推动土耳其语自然语言处理研究具有重要价值。土耳其预训练语料库(Turkish Pretraining Corpus)由萨班哲大学的学生团队在毕业设计项目中创建,旨在整合并优化多个现有土耳其语文本资源,包括BellaTurca、Cosmos-Turkish-Corpus-v1.0以及FineWeb-2 Turkish Categorized等数据集。该语料库通过清洗、归一化和去重等预处理步骤,形成了一个规模介于1亿至10亿词汇之间、专门用于土耳其语语言模型预训练与评估的综合性文本集合,为土耳其语NLP领域的研究与发展提供了重要的数据支撑。
当前挑战
构建土耳其预训练语料库面临的核心挑战在于解决土耳其语自然语言处理中高质量训练数据稀缺的问题。土耳其语具有复杂的形态结构和独特的语法特征,使得从异构网络文本中提取纯净、规范的语料变得尤为困难。在数据集构建过程中,团队需应对多源数据整合带来的技术难题,包括不同数据格式的统一、文本编码的标准化处理,以及跨数据集重复内容的精准识别与剔除。此外,自动采集的原始数据中可能包含噪声、不一致的样本以及源自上游数据集的潜在偏见,这要求构建者实施严格的清洗与过滤流程,以确保最终语料库的语言一致性与内容可靠性,从而满足语言模型预训练对数据质量的高标准要求。
常用场景
经典使用场景
在自然语言处理领域,针对低资源语言的模型开发常面临数据稀缺的挑战。Turkish-LLM-Dataset作为土耳其语预训练语料库,其经典使用场景集中于土耳其语语言模型的预训练与持续预训练。该数据集整合了多个高质量土耳其语文本源,经过清洗与去重处理,为研究者提供了大规模、多样化的文本数据,支持从头开始训练或对现有模型进行领域适应,以提升模型在土耳其语任务上的理解和生成能力。
解决学术问题
该数据集有效解决了土耳其语自然语言处理研究中数据资源不足的核心学术问题。通过聚合BellaTurca、Cosmos-Turkish-Corpus和FineWeb-2 Turkish Categorized等语料,它构建了一个统一、规范的大规模文本集合,为探索土耳其语的语言特性、词法句法模式以及语义表示提供了坚实基础。其意义在于降低了土耳其语NLP研究的入门门槛,推动了该语言在预训练模型、语言理解评估等方向的理论进展,对促进语言技术公平性与多样性具有重要影响。
实际应用
在实际应用层面,Turkish-LLM-Dataset为开发面向土耳其语用户的智能系统提供了关键数据支撑。基于此数据集训练的模型可应用于机器翻译、文本摘要、情感分析、智能客服等具体场景,服务于土耳其本土的互联网内容生成、教育科技、媒体分析与商业自动化等领域。它使得企业与研究机构能够构建更准确、更符合土耳其语语言习惯的NLP产品,直接惠及土耳其语使用者,推动了语言技术在现实世界中的落地与普及。
数据集最近研究
最新研究方向
在自然语言处理领域,针对低资源语言的模型开发已成为前沿热点,土耳其语作为代表性语言之一,其数据集的构建与优化备受关注。turkish-llm-dataset整合了多个高质量语料源,经过清洗与去重处理,为土耳其语大语言模型的预训练提供了关键支持。当前研究聚焦于利用此类数据集提升模型在土耳其语理解与生成任务中的性能,特别是在多语言对比学习、领域自适应预训练等方面取得进展,推动了土耳其语NLP技术在学术与工业应用中的发展,对促进语言技术公平性具有积极意义。
以上内容由遇见数据集搜集并总结生成



