TurMix

Hugging Face2026-01-19 更新2026-01-20 收录

下载链接：

https://huggingface.co/datasets/AdaMLLab/TurMix

下载链接

链接失效反馈

官方服务：

资源简介：

TurMix是一个高质量的土耳其语预训练数据集，通过结合、过滤和去重多个来源创建。数据集包含来自多个网络爬取资源的土耳其语文本，经过质量过滤和MinHash去重流程处理。数据来源包括C4（mC4土耳其子集）、CulturaX（土耳其语）、Fineweb-2（tur_Latn）、HPLT-2（tur_Latn，5个分片）和VNGRS Web Corpus。数据集分为三个子集：1）minhash_deduped（推荐使用）：经过MinHash去重的数据，每个来源单独去重以移除近似重复文档；2）quality_filtered：去重前的质量过滤数据；3）consensus：出现在两个或更多来源中的文档（精确文本匹配），这些是经过多次爬取验证的高置信度文档。质量过滤基于语言识别（土耳其拉丁字母比例）、文档长度限制、行质量指标、重复检测（包括土耳其特定模式）和模板/政策短语移除。

创建时间：

2026-01-15

原始信息汇总

TurMix: Turkish Pretraining Data Mix 数据集概述

数据集基本信息

许可证: CC-BY-4.0
语言: 土耳其语
规模类别: 10M<n<100M
任务类别: 文本生成
标签: 预训练、土耳其语、去重、质量过滤

数据集描述

这是一个高质量的土耳其语预训练数据集，通过组合、过滤和去重多个来源创建而成。数据集包含来自多个网络爬虫来源的土耳其语文本，并经过了质量过滤和MinHash去重流程处理。

数据来源

C4 (mC4 Turkish subset)
CulturaX (Turkish)
Fineweb-2 (tur_Latn)
HPLT-2 (tur_Latn, 5 shards)
VNGRS Web Corpus

数据子集

1. `minhash_deduped` (推荐)

经过MinHash去重的数据。每个来源都单独进行了去重，以移除近似重复的文档。

统计信息:

约2700万份文档
359GB (压缩后)

加载方式: python from datasets import load_dataset ds = load_dataset("AdaMLLab/TurMix", "minhash_deduped")

2. `quality_filtered`

去重前的质量过滤数据。如果您希望应用自己的去重方法，可使用此子集。

统计信息:

约4900万份文档
658GB (压缩后)

加载方式: python from datasets import load_dataset ds = load_dataset("AdaMLLab/TurMix", "quality_filtered")

3. `consensus`

出现在2个或更多来源中的文档（精确文本匹配）。这些是经过多次爬取验证的高置信度文档。

统计信息:

784万份文档
13GB (压缩后)

模式:

text: 文档文本
id: 主文档ID
sources: 文档出现的来源列表（例如 ["c4", "culturax"]）
all_ids: 所有来源中的所有文档ID
metadata: 附加元数据

加载方式: python from datasets import load_dataset ds = load_dataset("AdaMLLab/TurMix", "consensus")

质量过滤标准

文档基于以下标准进行过滤：

语言识别（土耳其语拉丁字母比例）
文档长度限制
行质量指标
重复检测（包括土耳其语特定模式）
样板文件/政策短语移除过滤阈值基于Fineweb-2土耳其语配置。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量预训练数据的构建对于提升模型性能至关重要。TurMix数据集的构建过程体现了对多源土耳其语文本的系统整合与精炼。该数据集汇集了来自C4、CulturaX、Fineweb-2、HPLT-2及VNGRS网络语料库等多个权威来源的土耳其语文本，通过一套严谨的质量过滤流程进行处理，包括语言识别、文档长度筛选、行质量评估、重复模式检测以及特定模板内容的移除。随后，采用MinHash技术对各个来源的文本进行独立去重，有效消除了近重复文档，最终形成了三个具有不同特性的子集，为研究者提供了灵活的数据选择。

特点

TurMix数据集在土耳其语预训练资源中展现出鲜明的特色。其核心优势在于通过多源交叉验证机制构建了高置信度的文本集合，特别是consensus子集，仅保留在两个及以上来源中完全匹配的文档，确保了内容的可靠性与广泛代表性。数据集规模庞大，文档数量达到千万级别，压缩后体积从13GB至658GB不等，覆盖了广泛的语域与主题。每个子集均提供清晰的元数据结构，包含文本内容、唯一标识符、来源信息及附加元数据，便于深入分析与定制化应用。这种分层设计既满足了大规模预训练的需求，也为特定研究场景提供了精炼的数据选项。

使用方法

为便于研究社区的使用，TurMix数据集通过Hugging Face的datasets库提供了便捷的访问接口。用户可根据具体需求选择相应的数据配置进行加载：若追求去重后的纯净文本，可调用minhash_deduped子集；若希望应用自定义的去重策略，则推荐使用quality_filtered子集；而对于追求最高内容一致性的任务，consensus子集提供了经过多源交叉验证的文档。加载后，数据以标准化的字段呈现，研究者可直接将其用于土耳其语语言模型的预训练、微调或作为基准语料进行语言学分析。这种模块化的访问方式显著降低了数据准备的技术门槛。

背景与挑战

背景概述

随着自然语言处理技术的飞速发展，高质量预训练数据集的构建成为推动大语言模型性能提升的关键因素。TurMix数据集由AdaMLLab团队于近期发布，旨在整合多个土耳其语网络爬取资源，通过系统化的质量过滤与去重流程，构建一个专为土耳其语大模型预训练设计的大规模文本语料库。该数据集的核心研究问题聚焦于解决土耳其语高质量训练数据稀缺的困境，通过融合C4、CulturaX、Fineweb-2、HPLT-2及VNGRS Web Corpus等多个来源，并应用精细的语言识别、长度控制、重复模式检测及土耳其语特定噪声去除策略，显著提升了土耳其语预训练数据的纯净度与多样性，为土耳其语自然语言处理模型的开发与优化提供了坚实的数据基础。

当前挑战

在土耳其语文本生成任务的背景下，TurMix数据集致力于应对多源异构数据整合与质量控制的复杂挑战。具体而言，其构建过程面临双重困难：一方面，原始网络爬取数据中普遍存在语言混杂、文档长度不均、重复内容及土耳其语特有噪声模式等问题，需设计精细的过滤阈值与土耳其语特定的重复检测机制以确保文本质量；另一方面，从多个独立来源合并数据时，如何高效去除跨源近重复文档，同时保留语义多样性，成为技术上的关键难点。数据集通过MinHash去重算法及多源共识验证策略，力求在规模与质量之间取得平衡，但如何进一步优化过滤规则以适配土耳其语的语言特性，仍是持续探索的方向。

常用场景

经典使用场景

在自然语言处理领域，针对土耳其语这类资源相对稀缺的语言，构建高质量的大规模预训练语料库是推动语言模型发展的关键基础。TurMix数据集通过整合多个网络爬取来源，并经过质量过滤与去重处理，为土耳其语文本生成任务提供了经典的使用场景。研究人员和开发者可借助该数据集训练或微调大型语言模型，以提升模型在土耳其语理解与生成方面的性能，特别是在文本补全、对话系统及内容创作等任务中，TurMix的优质语料能够有效支撑模型学习语言的深层语义和语法结构。

衍生相关工作

TurMix数据集的发布衍生了一系列围绕土耳其语NLP的经典研究工作。许多学者以此为基础，开发了针对土耳其语的预训练模型，如TurBERT或TurkGPT等变体，这些模型在文本分类、情感分析和命名实体识别任务中取得了显著进展。同时，该数据集促进了跨语言迁移学习的研究，部分工作探索了如何利用TurMix增强多语言模型的土耳其语能力。此外，其去重与质量过滤方法也为其他低资源语言的数据集构建提供了可借鉴的范式，推动了整个领域的数据处理标准化进程。

数据集最近研究

TurMix

TurMix: Turkish Pretraining Data Mix 数据集概述

数据集基本信息

数据集描述

数据来源

数据子集

1. minhash_deduped (推荐)

2. quality_filtered

3. consensus

质量过滤标准

1. `minhash_deduped` (推荐)

2. `quality_filtered`

3. `consensus`