osieosie/tmax-sft-skill-tax-20260324-1k-qwen3.5-27b

Name: osieosie/tmax-sft-skill-tax-20260324-1k-qwen3.5-27b
Creator: osieosie
Published: 2026-05-01 07:13:01
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/osieosie/tmax-sft-skill-tax-20260324-1k-qwen3.5-27b

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: skill_tax_20260324_1k_all data_files: - split: train path: data/skill_tax_20260324_1k_all/train-*.parquet - config_name: skill_tax_20260324_1k_only_success data_files: - split: train path: data/skill_tax_20260324_1k_only_success/train-*.parquet default_config_name: skill_tax_20260324_1k_all ---

提供机构：

osieosie

搜集汇总

数据集介绍

构建方式

该数据集基于tmax团队在2026年3月24日发布的技能分类任务数据构建，采用大规模语言模型Qwen3.5-27B进行监督微调（SFT）样本生成。原始数据经过细致筛选与分类标注，形成两个子集：全量数据集'skill_tax_20260324_1k_all'和仅包含成功分类样本的精细化子集'skill_tax_20260324_1k_only_success'。数据以Parquet格式存储，便于高效读写与分布式处理，每个子集均包含约1000条训练样本，为技能分类领域的模型微调提供了精炼且高质量的训练素材。

特点

该数据集在技能分类任务领域展现出独特的结构优势。一方面，它提供了两个差异化的配置版本，研究者可根据实际需求选择使用包含所有样本的全量版本，或专注于高质量成功案例的筛选版本，这种设计极大增强了数据使用的灵活性。另一方面，数据集生成过程借助了先进的大语言模型能力，确保了样本的语义丰富性和分类准确性。此外，采用Parquet格式列式存储，在保持数据完整性的同时显著提升了加载与处理效率，特别适合大规模训练场景下的迭代实验需求。

使用方法

使用者可通过HuggingFace Datasets库便捷加载该数据集，默认配置为全量版本'skill_tax_20260324_1k_all'，亦可指定'config_name'参数为'skill_tax_20260324_1k_only_success'以获取高纯度子集。加载后数据直接以train split形式呈现，包含经Qwen3.5-27B模型生成的对话输入与技能分类标签，适用于序列到序列的文本生成或分类任务微调。建议在加载时利用Parquet格式的列式特性，按需选取字段以减少内存占用，并配合该数据集的千级样本量进行快速迭代的少样本学习或迁移学习实验。

背景与挑战

背景概述

该数据集由Tmax团队于2024年3月24日构建，旨在针对Qwen3.5-27B等大型语言模型进行监督微调（SFT），核心研究问题聚焦于技能分类任务的精细化训练。技能分类是自然语言处理与知识图谱交叉领域的关键技术，广泛应用于人力资源管理、在线教育及智能问答系统。该数据集收录约1000条样本，通过标准化技能标注体系构建，为提升模型在专业化领域中的语义理解与分类能力提供了高质量训练资源。其发布填补了中文技能分类SFT数据的空白，推动了工业级语义推理模型的发展。

当前挑战

该数据集面临的核心挑战包括：领域问题方面，技能分类需应对技能名称的多义性（如相同术语在不同行业含义迥异）和层次化分类的细粒度辨析，现有模型常混淆相近技能。构建过程中，数据来源的稀疏性与标注一致性难以保证，手工标注成本高昂且易引入主观偏差，同时样本量较小（1000条）可能导致模型过拟合或泛化能力不足。此外，技能体系不断演化，如何持续更新数据集以覆盖新兴技能也是重要挑战。

常用场景

经典使用场景

在自然语言处理与大型语言模型对齐的学术研究中，tmax-sft-skill-tax-20260324-1k-qwen3.5-27b数据集主要被用于监督微调（SFT）阶段，以提升模型在技能分类与税务知识推理任务上的专项能力。该数据集整合了模型生成的指令-响应对，尤其聚焦于‘技能税’这一细分领域，为训练模型准确理解税务法规、识别职业技能关联性以及生成合规建议提供了高质量的标注样本。其经典使用场景包括基于Qwen3.5-27B基座模型的领域适应性微调，通过1K精炼样本实现参数高效对齐，从而在少样本条件下显著提升模型对结构化税务条款的解析与应答准确性。

衍生相关工作

该数据集的发布衍生出一系列围绕‘领域特定SFT数据效用’的探究工作，包括数据增强策略（如基于同义替换与语法变体的技能描述扩充）、少样本学习下的模型鲁棒性分析，以及多语言税务知识对齐研究。部分后续工作将其与LawGPT、FinBERT等法律金融模型框架结合，对比不同基座在税务文本上的迁移效果，并催生了‘技能-税率映射数据库’等配套资源。此外，关于如何从1K样本中动态选取最具信息量的子集进行课程学习（Curriculum Learning）的论文，也直接受启于该数据集的非平衡类别分布特征。

数据集最近研究