five

bashqort-task

收藏
Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/metuKKhud/bashqort-task
下载链接
链接失效反馈
官方服务:
资源简介:
Bashqort Topic Classification 是一个用于巴什基尔语(Bashkir)新闻标题的主题分类数据集。该数据集的创建源于目前缺乏公开的巴什基尔语主题分类基准,其主要目的是为适应巴什基尔语的大语言模型(LLMs)提供任务特定的微调与评估数据。数据来源于对 bash.news 网站新闻标题的随机抽样,并由巴什基尔语母语者 Ilyas Khatipov 进行手动标注。为了提升类别平衡性,在数据清洗过程中移除了样本数量少于17个的主题类别。数据集包含总计267个新闻标题样本,均匀分布于10个主题类别,具体分布为:文化(21.7%)、医疗(13.1%)、教育(12.0%)、社会领域(9.4%)、政治(9.4%)、体育(7.9%)、兵役(6.7%)、经济(6.7%)、事件(6.7%)和安全(6.4%)。数据以CSV或JSON格式提供,包含两个核心字段:`title`(巴什基尔语新闻标题,字符串类型)和 `topic`(主题标签,字符串类型,为上述10个类别之一)。数据集未预设固定的训练集和测试集划分,鼓励使用者根据实验需要(例如80/20比例)自行划分以确保可复现性。该数据集适用于以下场景:对大语言模型进行巴什基尔语主题分类任务的任务特定微调;评估模型在巴什基尔语理解上的零样本和少样本性能;作为未来巴什基尔语自然语言处理研究工作的基准数据集。数据集遵循MIT许可证。

Bashqort Topic Classification is a topic classification dataset for Bashkir news headlines. The creation of this dataset stems from the current lack of publicly available benchmarks for Bashkir topic classification, with the main purpose of providing task-specific fine-tuning and evaluation data for large language models (LLMs) adapted to Bashkir. The data is sourced from random sampling of news headlines on the bash.news website and manually annotated by native Bashkir speaker Ilyas Khatipov. To improve category balance, topic categories with fewer than 17 samples were removed during data cleaning. The dataset contains a total of 267 news headline samples, evenly distributed across 10 topic categories, with specific distributions as follows: culture (21.7%), healthcare (13.1%), education (12.0%), social sphere (9.4%), politics (9.4%), sports (7.9%), military service (6.7%), economy (6.7%), events (6.7%), and security (6.4%). The data is provided in CSV or JSON format, with two core fields: `title` (Bashkir news headline, string type) and `topic` (topic label, string type, one of the 10 categories mentioned above). The dataset does not have a predefined split for training and test sets; users are encouraged to split it according to experimental needs (e.g., 80/20 ratio) to ensure reproducibility. This dataset is suitable for the following scenarios: task-specific fine-tuning of large language models for Bashkir topic classification tasks; evaluating zero-shot and few-shot performance of models in Bashkir understanding; serving as a benchmark dataset for future Bashkir natural language processing research. The dataset is licensed under the MIT License.
创建时间:
2026-05-18
原始信息汇总

数据集名称

Bashqort Topic Classification

数据集描述

这是一个面向巴什基尔语新闻标题的主题分类数据集。由于巴什基尔语缺乏公开的主题分类基准,该数据集旨在用于针对该语言的任务特定微调和评估。

数据来源与构建

  • 来源:随机采样自 bash.news 的新闻标题。
  • 标注:由巴什基尔语母语者 Ilyas Khatipov 进行人工标注。
  • 清洗:移除了样本数少于17个的类别,以改善类别平衡。

类别分布(清洗后)

主题(Topic) 数量(Count) 占比(Proportion)
文化(Мәҙәниәт) 58 21.7%
医疗(Һаулыҡ һаҡлау) 35 13.1%
教育(Мәғариф) 32 12.0%
社会领域(Социаль өлкә) 25 9.4%
政治(Сәйәсәт) 25 9.4%
体育(Спорт) 21 7.9%
兵役(Хәрби хеҙмәт) 18 6.7%
经济(Иҡтисад) 18 6.7%
事件(Ваҡиғалар) 18 6.7%
安全(Хәүефһеҙлек) 17 6.4%

总计:267 条标题,覆盖 10 个类别。

数据格式

数据集以 CSV/JSON 格式提供,包含以下列:

  • title:巴什基尔语新闻标题(字符串)
  • topic:主题标签(字符串,来自上述10个类别)

示例: json { "title": "Өфөлә мәктәптәрҙә яңы уҡыу йылы башланды", "topic": "Education" }

数据集划分

  • 总样本数:267
  • 划分方式:无固定的训练/测试集划分,建议用户自行创建(如80/20)以保证可重复性。

数据集统计

  • 下载大小:20,514 字节
  • 数据集大小:40,302 字节
  • 样本规模:100 < n < 1000

预期用途

  • 对大型语言模型进行任务特定的微调,用于主题分类
  • 巴什基尔语理解的零样本和少样本评估
  • 为未来的巴什基尔语自然语言处理工作提供基准

许可协议

MIT License

引用格式

bibtex @misc{khudiakova2025bashqorttask, author = {Khudiakova, Kseniia and Khatipov, Ilyas}, title = {Bashqort Topic Classification: News Headlines with 10 Topics}, year = {2025}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/metuKKhud/bashqort-task} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集旨在填补巴什基尔语主题分类基准的空白,围绕新闻标题这一语料类型展开构建。数据源来自巴什基尔语新闻网站 bash.news,通过随机采样获得初始样本。由母语为巴什基尔语的标注者 Ilyas Khatipov 进行人工标注,确保标签的语义准确性。为改善类别平衡性,清理阶段移除了样本数少于17条的类别,最终保留10个主题类别,涵盖文化、医疗、教育、社会、政治、体育、兵役、经济、事件及安全等领域,共计267条标题。数据集以CSV/JSON格式存储,包含标题文本与主题标签两个字段,未预设固定的训练/测试划分,鼓励研究者自行构建划分方案。
使用方法
该数据集主要面向巴什基尔语大语言模型的主题分类能力微调与评估。用户可将JSON或CSV格式的数据加载至模型训练框架,自行划分训练集与测试集(如80/20比例),以适配特定实验需求。在零样本与少样本评估场景中,可直接使用标题文本与标签进行提示词设计。数据集同样适用于构建低资源语言的NLP基准测试,推动巴什基尔语的语言理解研究。建议研究人员在发表成果时引用提供的BibTeX条目,以尊重数据创建者的贡献。
背景与挑战
背景概述
巴什基尔语(Bashkir)作为俄罗斯联邦巴什科尔托斯坦共和国的官方语言之一,属于突厥语系奇普恰克语支,在全球范围内使用人数约百余万,属于典型的低资源语言。2025年,由Kseniia Khudiakova与母语者Ilyas Khatipov共同创建的Bashqort话题分类数据集正式发布,其核心研究问题在于为巴什基尔语自然语言处理提供首个公开可用的话题分类基准。该数据集从bash.news新闻网站随机采样267条标题,经人工标注为10个类别,填补了巴什基尔语在主题分类任务上的空白,对于评估大语言模型在该语言上的任务微调与零样本学习能力具有重要开创意义。
当前挑战
该数据集所解决的领域挑战在于巴什基尔语长期缺乏结构化的自然语言理解基准,尤其新闻话题分类任务因语言资源稀缺而难以开展规范化评估。构建过程中面临的挑战包括:网络新闻数据来源单一,标注依赖极少的母语专家,且原始类别分布极不均衡,需剔除样本数少于17条的类别以保证分类器训练的合理性。此外,仅有267条样本的数据规模限制了模型泛化性能,也未预设固定的训练测试划分,增加了跨研究可比性的难度,凸显低资源场景下的数据获取、标注一致性及基准标准化等多重困境。
常用场景
经典使用场景
在低资源语言自然语言处理领域,Bashqort Topic Classification数据集为巴什基尔语的新闻标题主题分类任务提供了首个公开基准。该数据集包含267条由母语者标注的新闻标题,涵盖文化、医疗、教育等10个主题类别,数据经过精心清洗以平衡类别分布。研究者可基于此数据集进行任务特定的模型微调,评估大语言模型在巴什基尔语上的主题理解能力,或开展零样本与少样本学习实验,从而推动这一低资源语言的NLP研究进程。
解决学术问题
该数据集直接回应了低资源语言研究中缺乏巴什基尔语主题分类基准的学术难题。在此之前,巴什基尔语的文本分类任务因缺少标准化标注数据集而难以开展系统性评估,制约了该语言NLP技术的发展。Bashqort Topic Classification的发布填补了这一空白,为评估多语言模型在低资源情境下的泛化能力提供了可靠的测试资源,同时为研究数据稀缺条件下的主题分类方法论——如迁移学习与数据增强策略——创造了实验基础,对丰富语言多样性与促进低资源语言技术公平性具有重要的学术意义。
实际应用
在实际应用中,该数据集支持构建面向巴什基尔语用户的新闻聚合与信息过滤系统。通过训练主题分类模型,可将巴什基尔语新闻自动归类至文化、政治、经济等领域,从而提升新闻平台的内容组织效率与个性化推荐精度。此外,该数据集还可服务于巴什基尔语智能助手与对话系统,使其能够根据用户查询的主题类别提供更精准的信息检索服务,在地方语言保护与数字化传播中发挥切实作用。
数据集最近研究
最新研究方向
在当前低资源语言自然语言处理的浪潮中,巴什基尔语作为突厥语系中亟待数字化的代表,其首个新闻主题分类基准数据集bashqort-task的发布标志着该领域的前沿探索方向。该数据集专注小样本(仅267条标题样本)和10个均衡化社会类别(如文化、医疗、政治),精准响应了低资源语言LLM任务级微调与零样本/少样本评估的迫切需求,直接关联多语言AI包容性治理的热点事件。其意义在于为巴什基尔语NLP填补了可复用基准的空白,推动小语种在信息分类、本地化新闻理解等应用中的模型适配研究,亦为其他濒危语言的数据集构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作