five

turkish-stratch-txt

收藏
Hugging Face2025-12-28 更新2025-12-29 收录
下载链接:
https://huggingface.co/datasets/sixfingerdev/turkish-stratch-txt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个高质量的、经过预处理的土耳其维基百科语料库,专门为训练SpeedLM(无矩阵乘法、基于哈希的语言模型)和其他轻量级架构而设计。数据来源为土耳其维基百科(已清洗),格式为行分隔的原始UTF-8文本。预处理步骤包括剥离JSONL元数据、规范化空白字符和保持土耳其字符完整性。数据集的目标模型是SpeedLM v0.1(字节级三元模型)。传统数据集通常包含复杂的JSON结构和元数据,而该数据集提供了纯文本流,优化了字节级训练、高速流式传输和基于哈希的上下文。数据集的统计数据包括语言为土耳其语(TR),编码为UTF-8,词汇大小为256(字节级),结构为每行一个维基百科段落。
创建时间:
2025-12-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: SpeedLM-Dataset-TR: Cleaned Turkish Wikipedia for Minimalist LLMs
  • 托管地址: https://huggingface.co/datasets/sixfingerdev/turkish-stratch-txt
  • 许可协议: MIT
  • 任务类别: 文本生成
  • 语言: 土耳其语 (tr)
  • 标签: 法律
  • 数据规模: 100K < n < 1M

数据来源与格式

  • 来源: 经过清洗的土耳其语维基百科。
  • 格式: 以行分隔的原始 UTF-8 文本。
  • 结构: 每行包含一个维基百科段落。

预处理流程

数据从 wiki_cleaned4.jsonl 中提取,并经过以下自定义处理:

  1. 提取: 从每条 JSON 行中分离出 output 字段。
  2. 清理: 移除可能破坏字节级模型的空字节和控制字符。
  3. 规范化: 将多个空格合并为单个空格,并确保 换行符的一致性。

数据统计

指标
语言 土耳其语 (TR)
编码 UTF-8
词汇表大小 256 (字节级)
结构 每行一个维基百科段落

目的与用途

该数据集旨在为训练 SpeedLM(无矩阵乘法、基于哈希的语言模型)及其他轻量级架构提供高质量、预处理的土耳其语语料库。它提供了一个纯文本流,优化用于:

  1. 字节级训练: 无需复杂的分词器。
  2. 高速流式处理: 针对单次遍历的在线学习进行优化。
  3. 基于哈希的上下文: 均匀的文本分布,以最小化稀疏架构中的哈希冲突。

使用方式

数据集包含一个名为 kayra_training_raw.txt 的主要数据文件,可通过以下绝对地址访问: https://huggingface.co/datasets/sixfingerdev/turkish-stratch-txt/resolve/main/kayra_training_raw.txt

README 中提供了完整的 Python 训练脚本示例,展示了如何下载数据、进行文本规范化,并使用 sixfinger.transformers 库中的 SpeedLM 模型进行训练。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量的语料库是训练高效模型的基础。turkish-stratch-txt数据集源自土耳其语维基百科,经过精心清洗与预处理构建而成。其构建流程首先从原始的wiki_cleaned4.jsonl文件中提取文本内容,专门隔离出output字段以去除冗余的JSONL元数据结构。随后进行数据净化,移除了可能干扰字节级模型训练的空字节与控制字符。最后通过规范化处理,将多个连续空格合并为单一空格,并统一换行符格式,确保文本流的一致性,从而形成每行一个维基百科段落的纯净文本格式。
特点
该数据集专为轻量级语言模型设计,其核心特点在于纯粹的字节级文本流格式。它完全移除了传统数据集中常见的复杂元数据与JSON结构,仅保留原始UTF-8编码的土耳其语文本。这种设计使得数据集能够直接支持无需复杂分词器的字节级训练,并优化了单遍在线学习的数据流处理效率。同时,均匀的文本分布有助于减少稀疏架构中哈希碰撞的概率,为SpeedLM等基于哈希的模型提供了理想的训练素材。数据集严格保持了土耳其语字符的完整性,确保了语言特性的准确表达。
使用方法
使用该数据集进行模型训练时,通常遵循一套标准化的流程。首先从HuggingFace平台下载原始的kayra_training_raw.txt文件,随后执行文本规范化操作,包括转换为小写、移除标点符号以及规整多余空格等步骤。预处理后的文本可直接输入SpeedLM架构进行训练,该模型配置了特定的桶数量、特征维度和上下文大小等超参数。训练过程支持分块数据流处理,允许在单轮迭代中高效学习大规模语料。完成训练后,模型权重以npz格式保存,并可便捷地加载用于文本生成任务,通过对土耳其语提示词进行解码来产生连贯的后续文本。
背景与挑战
背景概述
在自然语言处理领域,高质量、大规模的单语语料库对于训练高效的语言模型至关重要。土耳其语作为黏着语系的重要代表,其丰富的形态变化和独特的语法结构对语言模型的构建提出了特殊要求。turkish-stratch-txt数据集由sixfingerdev团队创建,旨在为SpeedLM等轻量级、无矩阵乘法的哈希语言模型提供优化的土耳其语训练数据。该数据集源于土耳其语维基百科,经过精心清洗和预处理,去除了冗余的元数据,保留了文本的原始流式结构,专注于支持字节级训练和高速流式学习,为资源受限环境下的土耳其语模型开发提供了重要基础。
当前挑战
该数据集致力于解决轻量级语言模型在土耳其语文本生成任务中的挑战,其核心在于如何为哈希稀疏架构提供均匀分布的文本流,以最小化哈希冲突,并支持高效的字节级单次训练。在构建过程中,面临的挑战包括从原始JSONL格式中精确提取并清洗土耳其语文本,同时确保土耳其语特殊字符的完整性;需要移除空字节和控制字符以避免干扰字节级模型,并通过规范化空格和换行符来保证数据的一致性,从而为无复杂分词器的训练流程提供纯净的输入。
常用场景
经典使用场景
在自然语言处理领域,针对资源受限环境下的语言模型训练,turkish-stratch-txt数据集提供了一个经过精心清洗的土耳其语维基百科文本流。该数据集专为SpeedLM等轻量级架构设计,其经典使用场景在于支持字节级别的语言模型训练,无需依赖复杂的分词器,可直接处理原始UTF-8编码的文本序列。这种设计使得研究人员能够在单次流式传递中高效训练模型,尤其适用于探索基于哈希的稀疏架构,以最小化哈希冲突并优化内存使用效率。
实际应用
在实际应用中,该数据集被广泛用于开发和优化面向土耳其语的轻量级语言模型,特别是在移动设备、边缘计算等计算资源有限的环境中。例如,它可以支持构建快速的文本生成系统、实时语言理解工具或高效的文本分类器。由于其预处理流程移除了控制字符并规范化了空白符,数据集也适用于需要高文本纯净度的应用,如法律文档分析、教育内容生成或本地化智能助手,为土耳其语自然语言处理技术的产品化提供了可靠的数据基础。
衍生相关工作
围绕该数据集,衍生出了一系列专注于高效模型架构的研究工作。最具代表性的是SpeedLM项目本身,它利用该数据集训练了基于字节级三元组的哈希语言模型。此外,相关研究扩展到了其他轻量级模型在土耳其语上的适配,例如探索不同的上下文窗口配置与特征提取方法。这些工作不仅验证了数据集在稀疏表示学习中的有效性,也促进了跨语言轻量模型比较研究,为后续探索更广泛的低资源语言处理方案提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作