s1_dataset_ptbr_1k_tokenized
收藏Hugging Face2025-12-10 更新2025-12-11 收录
下载链接:
https://huggingface.co/datasets/corre-social/s1_dataset_ptbr_1k_tokenized
下载链接
链接失效反馈官方服务:
资源简介:
这是经过预处理和标记化的**s1_dataset_ptbr_1k**数据集,准备用于基于Llama/Tucano架构的模型微调。它通过应用特定的指令和思考过程("Thinking Process")模板生成,并使用**Tucano-1b1-Instruct**的标记器转换为IDs。数据集格式设计为促进"Chain of Thought"(思考链),包含原始问题、思考轨迹和解决方案的结构化数据。
This is a preprocessed and tokenized **s1_dataset_ptbr_1k** dataset intended for model fine-tuning based on the Llama/Tucano architecture. It was generated by applying specialized instruction and "Thinking Process" templates, and converted into token IDs using the tokenizer of **Tucano-1b1-Instruct**. The dataset format is designed to facilitate "Chain of Thought" reasoning, containing structured data including original questions, thought trajectories, and final solutions.
创建时间:
2025-12-09
原始信息汇总
s1_dataset_ptbr_1k_tokenized 数据集概述
数据集基本信息
- 名称: s1_dataset_ptbr_1k_tokenized
- 许可证: mit
- 主要任务类别: 文本生成
- 语言: 葡萄牙语 (pt)
- 数据规模: 1K<n<10K
- 下载大小: 12612548 字节
- 数据集大小: 30842229 字节
数据来源与性质
- 来源数据集: corre-social/s1_dataset_ptbr_1k
- 处理状态: 已预处理、已分词
- 用途: 适用于基于 Llama/Tucano 架构的模型进行微调
- 标签: tokenized, sft, pre-processed, tucano, llama
数据结构与内容
- 数据分割: 训练集 (train)
- 训练集样本数量: 1000
- 训练集字节大小: 30842229
特征字段
solution: 字符串类型question: 字符串类型cot_type: 字符串类型source_type: 字符串类型metadata: 字符串类型cot: 空值类型thinking_trajectories: 字符串列表类型attempt: 字符串类型text: 字符串类型
预处理与分词详情
- 分词器: TucanoBR/Tucano-1b1-Instruct 分词器
- 上下文块大小: 2048 个词元
- 原始数据集: https://huggingface.co/datasets/corre-social/s1_dataset_ptbr_1k
- 分词器基础模型: https://huggingface.co/TucanoBR/Tucano-1b1-Instruct
数据格式与模板
数据采用特定结构进行格式化,以激发思维链推理。分词前应用的格式如下:
<instruction> {pergunta_original} </instruction> <|im_start|>think {thinking_trajectories} {solution}
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,针对葡萄牙语指令微调任务的需求,该数据集通过系统化预处理流程构建而成。其基础来源于原始数据集s1_dataset_ptbr_1k,首先应用了特定的指令与思维链模板进行格式化,随后采用Tucano-1b1-Instruct模型的专用分词器,将文本序列转换为标准的词元标识符序列。整个处理过程严格遵循了2048个词元的上下文长度限制,确保了数据格式与目标模型架构的完全兼容,为后续的高效模型训练奠定了坚实基础。
特点
该数据集的核心特征体现在其专为葡萄牙语思维链推理任务设计的结构化格式。每条数据样本均整合了原始问题、思维轨迹以及最终解答,并封装于清晰的指令标记之中,旨在显式地引导模型进行逐步推理。作为已分词且预处理的资源,它直接提供了模型训练所需的输入标识符,免除了额外的预处理步骤。数据集规模适中,包含一千个训练样本,特别适用于轻量级模型的监督微调场景,在葡萄牙语自然语言生成任务中展现出高度的实用性与针对性。
使用方法
本数据集主要服务于基于Llama或Tucano架构的葡萄牙语语言模型的指令微调过程。使用者可直接加载此分词后的数据集,将其输入到模型的训练管道中。由于数据已按固定上下文长度完成分词与对齐,因此能够无缝集成至标准的自回归语言模型训练框架,用于优化模型在遵循指令、进行思维链推理方面的能力。它简化了从原始文本到模型可消化格式的复杂流程,使研究人员和开发者能够专注于模型本身的调优与评估工作。
背景与挑战
背景概述
在自然语言处理领域,针对葡萄牙语(巴西变体)的指令微调数据集相对稀缺,这限制了该语言社区在大型语言模型定制化应用方面的发展。s1_dataset_ptbr_1k_tokenized数据集应运而生,它由corre-social团队基于原始s1_dataset_ptbr_1k数据集构建,并专门为基于Llama/Tucano架构的模型进行了预处理和令牌化。该数据集的核心研究问题聚焦于通过结构化思维轨迹(Thinking Trajectories)和指令模板,促进模型在葡萄牙语文本生成任务中实现链式推理(Chain of Thought)能力,从而提升模型在复杂问题解答中的逻辑连贯性与解释性。
当前挑战
该数据集旨在解决葡萄牙语指令遵循与推理生成的领域挑战,其核心难点在于如何在小规模样本(仅1000个示例)中有效编码多样化的思维轨迹,以引导模型产生高质量、分步骤的推理过程。在构建过程中,挑战主要源于对原始文本进行特定指令模板的适配与令牌化转换,需确保令牌序列在2048的上下文长度限制内保持语义完整性,同时准确对齐思维轨迹与解决方案的结构化字段,这对预处理流程的设计与令牌化器的选择提出了较高要求。
常用场景
经典使用场景
在葡萄牙语自然语言处理领域,该数据集为指令微调提供了标准化的训练资源。其经典使用场景在于,研究人员利用其经过特定模板格式化和令牌化的结构,对基于Llama或Tucano架构的预训练语言模型进行监督微调。数据集中的‘思考轨迹’字段模拟了链式推理过程,使得模型在生成答案前能够学习并复现人类解题的中间推理步骤,从而提升模型在复杂问答任务中的逻辑性和可解释性。
解决学术问题
该数据集主要解决了葡萄牙语大语言模型在指令遵循与推理能力对齐方面的研究问题。通过提供包含问题、解决方案及显式思考过程的结构化数据,它助力于探索模型如何内化并生成连贯的推理链,从而弥合模型原始文本生成能力与执行多步骤逻辑任务之间的差距。其意义在于为低资源语言的模型对齐研究提供了高质量、可复现的基准,推动了语言模型推理能力评估与改进方法的发展。
衍生相关工作
该数据集衍生的经典工作主要围绕Tucano系列模型的优化与评估展开。研究人员以其为基准,探索了不同指令模板和推理格式对模型性能的影响,并催生了针对葡萄牙语链式推理的专项评测任务。相关工作进一步扩展了数据集的用途,例如将其用于对比学习以提升模型鲁棒性,或作为合成数据生成的种子,以创建更大规模的葡萄牙语推理数据集,持续推动该语言生态的技术进步。
以上内容由遇见数据集搜集并总结生成



