bashqort-raw

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/metuKKhud/bashqort-raw

下载链接

链接失效反馈

官方服务：

资源简介：

Bashqort Raw Corpus 是一个用于大语言模型（LLM）持续训练的原始巴什基尔语文本集合。该数据集是项目“为巴什基尔语适配开源大语言模型”的一部分，旨在评估LlamaTurk和波斯语适配提出的适配方法。语料库汇集了多个来源，为语言建模提供多样化的语言基础。数据来源于四个主要渠道：每日社会政治报纸bashgazet.ru（约1,400篇文章）、地区新闻网站neftcity.ru（约548篇文章）、新闻与分析网站bash.news（约68,708篇文章）以及混合来源（公共领域+乱序文本）的bashkir-corpus（约2090万词元）。数据集总规模在1000万到1亿词元之间。数据经过了文档和句子级别的去重、移除少于5个词的句子、清理HTML残留、广告和元数据等预处理步骤。整个语料库用于自监督学习，未划分训练/验证集。每个数据样本是一个JSON对象，包含以下字段：text（巴什基尔语句子或段落）、source（数据来源标识）和is_shuffled（布尔值，指示文本是否经过乱序处理）。数据集也提供包含原始句子的纯文本列。该数据集适用于LLM（如Llama-2、Llama-3）的持续预训练/进一步预训练、因果语言建模（下一个词元预测）以及任何旨在改进巴什基尔语在NLP中表示的研究。

Bashqort Raw Corpus is a raw Bashkir language text collection for continuous training of large language models (LLMs). It is part of the project Adapting Open-Source Large Language Models for Bashkir, aimed at evaluating adaptation methods proposed by LlamaTurk (Toraman, 2024) and Persian adaptation (Mahdizadeh Sani et al., 2024). The corpus aggregates multiple sources to provide a diverse linguistic foundation for language modeling. Data is sourced from four main channels: the daily socio-political newspaper bashgazet.ru (approximately 1,400 articles), the regional news website neftcity.ru (approximately 548 articles), the news and analysis website bash.news (approximately 68,708 articles), and the mixed-source (public domain + shuffled text) bashkir-corpus (approximately 20.9 million tokens). The total dataset size ranges between 10 million and 100 million tokens. Data has undergone preprocessing steps such as document- and sentence-level deduplication, removal of sentences with fewer than 5 words, and cleaning of HTML remnants, advertisements, and metadata. The entire corpus is used for self-supervised learning without train/validation splits. Each data sample is a JSON object containing the following fields: text (Bashkir sentences or paragraphs), source (data source identifier), and is_shuffled (boolean indicating whether the text has been shuffled). The dataset also provides a plain text column with original sentences. It is suitable for continuous pre-training/further pre-training of LLMs (e.g., Llama-2, Llama-3), causal language modeling (next token prediction), and any research aimed at improving the representation of Bashkir in NLP.

创建时间：

2026-05-18

原始信息汇总

数据集名称

Bashqort Raw Corpus

概述

该数据集包含用于大型语言模型（LLM）持续训练的原始巴什基尔语文本。它是“为巴什基尔语言适配开源LLM”项目的一部分，旨在评估LlamaTurk和波斯语适配提出的方法。

数据规模

总计：约10M至100M个token（具体统计请参见Hugging Face页面）

数据来源

来源	类型	数量
bashgazet.ru	日常社会政治报纸	约1,400篇文章
neftcity.ru	区域新闻	约548篇文章
bash.news	新闻与分析	约68,708篇文章
bashkir-corpus	混合（公共领域+打乱）	约2,090万token

预处理

去重（文档级和句子级）
移除少于5个词的句子
移除HTML伪影、广告和元数据
无训练/验证集划分（整个语料库用于自监督学习）

数据格式

每个样本为JSON对象，包含以下字段：

text：巴什基尔语句子或段落
source：数据来源（如 bashgazet.ru、neftcity.ru、bash.news、bash-corpus 等）
is_shuffled：是否被打乱（true/false）

同时提供纯文本格式的text列，包含原始句子。

预期用途

LLM的持续预训练/进一步预训练（例如 Llama-2、Llama-3）
下一个词预测（因果语言建模）
任何旨在提升巴什基尔语在NLP中表现的研究

许可证

MIT License

引用

若使用该数据集，请引用项目仓库： bibtex @misc{khudiakova2025bashqortraw, author = {Khudiakova, Kseniia}, title = {Bashqort Raw Corpus: Bashkir Text Collection for Continual Training}, year = {2025}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/metuKKhud/bashqort-raw} }

搜集汇总

数据集介绍

构建方式

本数据集汇聚了来自巴什基尔语新闻与社会政治报刊、区域新闻门户及开源语料库等多源文本，经文档级与句子级去重、过滤短句及清除HTML残留等预处理步骤，构建为一个适用于大语言模型连续训练的原始语料合集。每个样本以JSON格式存储，包含文本内容、来源标识及是否经随机打乱等字段，整体未划分训练集与验证集，以服务于自监督学习场景。

特点

该语料库专为低资源语言巴什基尔语设计，总计涵盖数千万词元，尤其突出其跨领域多样性：既包含日常新闻与政治评论，也融入部分公共领域文本，从而为语言模型提供丰富的词汇与句法接触。设计中保留原始语序与打乱版本两种形态，便于研究者探索数据顺序对继续预训练效果的影响，体现了对低资源语言建模中数据稀缺与适应策略问题的针对性考量。

使用方法

本数据集主要面向大语言模型的继续预训练或进一步预训练任务，尤适用于因果语言建模中的下一词元预测。使用时可直接加载JSON格式的文本字段，配合Hugging Face Transformers库的自动分词与数据整理接口，无缝接入Llama或类似架构的训练流程。研究者亦可依据source字段筛选特定来源子集，或利用is_shuffled标记设计对比实验，以评估语料顺序对模型收敛与语言表征习得的影响。

背景与挑战

背景概述

Bashqort Raw Corpus是由Kseniia Khudiakova于2025年创建的一个面向低资源语言巴什基尔语的原始文本数据集，旨在为大型语言模型（LLM）的持续训练提供基础语料。该数据集隶属于'将开源LLM适配于巴什基尔语'项目，借鉴了LlamaTurk与波斯语适配等低资源语言适应方法的研究框架。通过整合巴什基尔语新闻网站、区域媒体报道及公开语料库等多源数据，该数据集共包含约1000万至1亿个token，为提升低资源语言在自然语言处理中的代表性作出了重要贡献，尤其推动了因果语言建模与持续预训练研究的发展。

当前挑战

该数据集面临多重挑战：首先，巴什基尔语作为低资源语言，语料匮乏且分布不均，现有数据来源以新闻文本为主，语体多样性不足，可能导致模型学习到的语言表征偏窄；其次，构建过程中需应对多源数据整合时的去重、清洗和标准化问题，尤其是公共语料库中部分文本经过混洗（shuffled），增加了语序恢复与语义连贯性处理的难度；此外，缺乏规范的训练-验证集划分，使得模型评估与调优策略的制定变得复杂。

常用场景

经典使用场景

在低资源语言自然语言处理研究中，巴什基尔语等小语种长期面临语料匮乏、模型泛化能力不足的困境。bashqort-raw数据集专为大型语言模型的持续训练而设计，其核心应用场景聚焦于因果语言建模与自监督学习。研究人员可利用该语料库对预训练模型（如Llama-2或Llama-3）进行领域内继续预训练，通过完整的巴什基尔语文本序列优化模型的下一个词元预测能力。该数据集的原始文本格式和丰富的来源标注，使其成为微调多语言模型在巴什基尔语环境下语言表征能力的理想基石，尤其适用于探索低资源语言适应策略的对比实验。

解决学术问题

该数据集直接回应了低资源语言在生成式大模型中代表性不足的学术难题。通过整合新闻、社会政治评论及混编语料等多源异构文本，bashqort-raw为研究者提供了验证持续预训练方法有效性的标准化语料。它支撑了LlamaTurk及波斯语适应等前沿框架在巴什基尔语上的迁移实验，助力量化分析领域内自监督学习对词法、句法建模的提升。这一语料库的推出，推动了低资源语言语言模型适应性的理论边界，使得匮乏语种在神经语言模型的评估与优化中获得了可复现的数据基础。

衍生相关工作

bashqort-raw的发布催生了一系列围绕低资源语言持续预训练方法的研究工作。最直接的衍生成果包括对LlamaTurk框架中词汇扩展与注意力机制调整策略的复现与改进，以及将波斯语适应论文中的分阶段训练协议应用于巴什基尔语的实证分析。此外，该数据集促进了跨语言迁移学习领域的进展，研究者借此探索了从高资源语言（如土耳其语）向低资源突厥语系语言进行知识迁移的通用路径。未来可能衍生的方向还包括基于该语料库的巴什基尔语tokenizer优化、数据增强策略评估，以及多语言模型在少样本场景下的零资源性能基准测试。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集