Pashto-Reasoning-12K

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/nassimjp/Pashto-Reasoning-12K

下载链接

链接失效反馈

官方服务：

资源简介：

Pashto-Reasoning-12K 是首个针对普什图语（Pashto）的大规模思维链（Chain-of-Thought, CoT）推理数据集。普什图语是全球超过6000万人使用的语言，但在现代自然语言处理（NLP）和推理研究中代表性严重不足。该数据集由iPashto.ai开发，旨在为普什图语语言模型提供深度推理和逻辑“思考”能力。数据集包含13,317个样本，每个样本包含四个字段：system（固定角色指令）、user（用户输入的查询或问题）、thought（内部推理链或逐步逻辑）、assistant（最终的清晰简洁回答）。数据格式为JSONL/Parquet，适用于文本生成和问答任务。数据集采用Apache 2.0许可证。数据集的特点包括：支持跨语言推理（许多推理链包含英语逻辑）、涵盖语法、形态学、词汇语义、翻译和文化知识等多种任务。数据集还提供了Hugging Face加载示例和ChatML模板的微调指南。该数据集是v1.0版本，未来版本将改进浅层推理模式。数据集由iPashto.ai维护，旨在填补低资源语言与最先进AI技术之间的差距。

创建时间：

2026-05-02

搜集汇总

数据集介绍

构建方式

Pashto-Reasoning-12K是首个面向普什图语的思维链推理数据集，由iPashto.ai团队构建。数据集的每条样本包含四个字段：system（固定角色指令）、user（普什图语输入查询）、thought（内部推理链）和assistant（最终答案）。数据以JSONL或Parquet格式存储，共包含13,317条训练样本。值得注意的是，部分推理轨迹中混合了英语逻辑以辅助解决问题，旨在利用基础大语言模型的跨语言推理能力。数据覆盖语法、词法、词汇语义、翻译和文化知识等多个任务领域，目前版本为v1.0，未来将持续优化。

特点

该数据集的核心特色在于其首创性和对低资源语言的深度覆盖。普什图语虽全球使用人数超6000万，但在现代自然语言处理与推理研究中极度匮乏。该数据集专门针对思维链推理设计，支持指令微调与问答任务。数据集的字段结构模仿现代推理模型架构，尤其适用于训练类似DeepSeek-R1或Qwen风格的推理模型。此外，数据集采用Apache 2.0许可，便于开放研究与商业应用。

使用方法

用户可通过Hugging Face Datasets库直接加载数据集，使用`load_dataset("nassimjp/Pashto-Reasoning-12K")`命令即可获取训练集。数据集适用于采用ChatML模板的微调流程，推荐格式为`<|system|>{{system}}<|user|>{{user}}<|thought|>{{thought}}<|assistant|>{{assistant}}`。研究人员可基于该数据集训练普什图语推理模型，提升低资源语言在复杂逻辑任务中的表现。数据集主要面向文本生成与开放域问答任务，适合作为指令微调与思维链推理研究的基准数据。

背景与挑战

背景概述

普什图语作为全球超过六千万人使用的语言，在现代自然语言处理领域中却长期处于资源匮乏的状态，缺乏高质量的指令微调与推理数据集。针对这一空白，日本埼玉的iPashto.ai研究团队于2026年推出Pashto-Reasoning-12K数据集，由Nassim Nasibullah主导构建。该数据集以13,317条样本规模，首次为普什图语提供了大规模链式思维推理数据，涵盖语法、形态学、词汇语义、翻译与文化知识等多样任务。其核心研究问题在于如何赋予低资源语言模型深层逻辑思考能力，推动普什图语在开源语言模型（如Ghanam、Roshan、Baran）上的发展，对低资源语言NLP领域具有开创性影响力。

当前挑战

该数据集所解决的领域问题在于，普什图语缺乏可支撑推理训练的指令数据，现有模型多依赖英语等资源丰富语言，难以直接迁移至普什图语的复杂形态与句法结构。在构建过程中，团队面临两大挑战：其一，思维链轨迹中大量混合英语逻辑以辅助推理，虽借力于基座模型跨语言能力，却可能导致普什图语原生推理模式的不纯粹；其二，作为v1.0版本，部分样本存在浅层推理模式，需在后续迭代中持续优化。数据覆盖任务多样，但兼顾领域广度与推理深度的平衡仍是难题。

常用场景

经典使用场景

在低资源语言自然语言处理领域，Pashto-Reasoning-12K数据集主要用于训练和评估普什图语大语言模型的链式推理与指令遵循能力。其经典的微调范式是将系统指令、用户查询、推理链和最终答案组织成ChatML格式的序列，引导模型学习从显式思考到凝练输出的完整认知流程。该数据集涵盖语法分析、词法语义、翻译及文化知识等多类任务，为普什图语推理模型的构建提供了首个规模化、结构化的训练语料。研究者可借助此数据集对基于DeepSeek-R1或Qwen架构的模型进行监督微调，从而显著提升其在普什图语场景下的多步逻辑推理与复杂问答表现。

衍生相关工作

Pashto-Reasoning-12K的发布催生了一系列扎根于低资源语言推理的研究工作。围绕该数据集，衍生工作包括构建普什图语专用推理评测基准、探索混合语言思维链对推理性能的影响、以及开发面向普什图语的多任务指令微调框架。iPashto.ai团队在此基础上进一步推出了Ghanam、Roshan、Baran等开源模型，这些模型均以本数据集作为核心训练语料之一，形成了从数据构建到模型发布的完整生态闭环。此外，学术界开始借鉴该数据集的四字段结构范式，将其扩展至其他低资源语言（如乌尔都语、达里语），推动了跨语言推理数据建设方法论的系统化发展。

数据集最近研究