SKELETON
收藏Hugging Face2025-11-17 更新2025-11-18 收录
下载链接:
https://huggingface.co/datasets/limhyeonseok/SKELETON
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多个配置,每个配置都是针对不同需求优化的语言模型数据集。数据集中的文本被分为提示(prompt)和完成(completion)两部分,每部分都包含内容和角色信息。提示部分用于引导模型生成响应,完成部分则是模型生成的响应。部分数据集还包含了推理内容(reasoning_content),可能用于增强模型在生成响应时的逻辑推理能力。数据集有不同的版本,包括是否包含骨架信息以及是否经过特定处理(如axolotl、VER2等)。
创建时间:
2025-11-14
原始信息汇总
SKELETON 数据集概述
数据集基本信息
- 数据集名称: SKELETON
- 存储位置: https://huggingface.co/datasets/limhyeonseok/SKELETON
- 配置数量: 14个独立配置
配置详情
小型配置
-
5mini-s1k-QR
- 样本数量: 1000
- 数据集大小: 15.87 MB
- 下载大小: 5.83 MB
- 特征: messages列表(id, content, role)
-
5mini-s1k-only-Q
- 样本数量: 1000
- 数据集大小: 2.16 MB
- 下载大小: 0.89 MB
- 特征: messages列表(id, content, role)
Qwen2.5-7B模型相关配置
-
Qwen2.5-7B-Instruct-GEN-SKEL-Q-LIMO-axolotl
- 样本数量: 816
- 数据集大小: 20.96 MB
- 下载大小: 9.01 MB
- 特征: id, messages列表(content, role)
-
Qwen2.5-7B-Instruct-GEN-SKEL-QR-LIMO-axolotl
- 样本数量: 816
- 数据集大小: 20.96 MB
- 下载大小: 9.00 MB
- 特征: id, messages列表(content, role)
-
Qwen2.5-7B-Instruct-Non-Skeleton-LIMO
- 样本数量: 816
- 数据集大小: 19.20 MB
- 下载大小: 8.12 MB
- 特征: id, prompt列表(content, role), completion列表(content, role)
-
Qwen2.5-7B-Instruct-Non-Skeleton-LIMO-axolotl
- 样本数量: 816
- 数据集大小: 19.20 MB
- 下载大小: 8.12 MB
- 特征: id, messages列表(content, role)
-
Qwen2.5-7B-Instruct-Skeleton-LIMO
- 样本数量: 816
- 数据集大小: 20.01 MB
- 下载大小: 8.43 MB
- 特征: id, prompt列表(content, role), completion列表(content, role)
-
Qwen2.5-7B-Instruct-Skeleton-LIMO-axolotl
- 样本数量: 816
- 数据集大小: 20.00 MB
- 下载大小: 8.53 MB
- 特征: id, messages列表(content, role)
-
Qwen2.5-7B-Instruct-Skeleton-LIMO-axolotl-VER2
- 样本数量: 816
- 数据集大小: 20.86 MB
- 下载大小: 8.78 MB
- 特征: id, messages列表(content, role)
-
Qwen2.5-7B-Non-Skeleton-LIMO
- 样本数量: 816
- 数据集大小: 19.17 MB
- 下载大小: 8.12 MB
- 特征: id, prompt列表(content, role), completion结构体(content, role)
-
Qwen2.5-7B-Skeleton-LIMO
- 样本数量: 817
- 数据集大小: 19.97 MB
- 下载大小: 8.43 MB
- 特征: id, prompt列表(content, role), completion结构体(content, role)
Qwen3-4B模型相关配置
-
Qwen3-4B-Non-Skeleton-LIMO
- 样本数量: 816
- 数据集大小: 19.17 MB
- 下载大小: 8.12 MB
- 特征: id, prompt列表(content, role), completion列表(content, reasoning_content, role)
-
Qwen3-4B-Skeleton-LIMO
- 样本数量: 816
- 数据集大小: 19.99 MB
- 下载大小: 8.46 MB
- 特征: id, prompt列表(content, role), completion列表(content, reasoning_content, role)
-
Qwen3-4B-Skeleton-LIMO-axolotl-VER2
- 样本数量: 816
- 数据集大小: 20.79 MB
- 下载大小: 8.66 MB
- 特征: id, messages列表(content, role)
数据特征总结
- 主要特征类型: messages列表、prompt-completion对
- 通用字段: content, role, id
- 特殊字段: reasoning_content(仅Qwen3-4B配置)
- 所有配置仅包含训练集分割
- 数据格式支持对话式AI训练
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,SKELETON数据集通过多种配置精心构建,涵盖不同模型架构和训练策略。该数据集采用多配置设计,包含基于Qwen2.5-7B和Qwen3-4B等大语言模型生成的对话数据,每个配置均通过结构化消息列表记录对话角色与内容。数据构建过程注重对话逻辑的完整性,部分配置特别区分提示与补全结构,或融入推理内容字段,体现了对复杂对话建模的深度考量。
特点
该数据集展现出显著的多元化特征,其核心在于对骨架对话与非骨架对话的并行收录。各配置均保持统一的对话消息结构,通过角色与内容字段的精确对应,确保语义表达的连贯性。数据规模呈现梯度分布,从千条级的精简样本到近千条的完整对话集合,为不同研究需求提供灵活选择。特别值得注意的是,部分配置引入了推理内容字段,为探索对话生成的内在逻辑机制提供了独特视角。
使用方法
研究人员可通过HuggingFace平台直接加载特定配置进行实验,每个配置对应独立的训练分割路径。使用时应根据研究目标选择相应配置,如骨架对话分析可优先选用Skeleton系列配置,而基础对话建模则适用Non-Skeleton版本。数据集支持标准消息列表格式,可直接接入主流对话系统训练流程。对于需要深入分析对话推理过程的研究,建议选用包含reasoning_content字段的配置版本。
背景与挑战
背景概述
对话式人工智能的演进催生了结构化思维数据集的需求,SKELETON数据集应运而生。该数据集由Qwen系列模型研发团队构建,聚焦于增强语言模型的逻辑推理与结构化输出能力。其核心研究问题在于探索如何通过骨架式提示工程提升模型对复杂指令的理解与执行精度,为可解释人工智能领域提供了新的训练范式。
当前挑战
该数据集致力于解决对话系统中思维链条不透明的核心难题,需克服多轮对话逻辑连贯性验证与推理步骤标准化标注的复杂性。构建过程中面临双重挑战:既要确保骨架模板与自然语言问题间的语义对齐,又需在数据清洗阶段平衡不同领域知识的覆盖广度与标注一致性,这对注释者的领域专业知识提出了较高要求。
常用场景
经典使用场景
在大型语言模型优化领域,SKELETON数据集以其结构化对话格式成为模型微调的核心资源。该数据集通过精心设计的消息序列,包含问题与推理骨架的交互模式,为语言模型提供了学习复杂推理路径的标准化模板。研究人员利用其多轮对话结构训练模型捕捉逻辑链条中的关键节点,显著提升了模型在数学推理和代码生成等任务中的表现。
解决学术问题
该数据集有效解决了语言模型在复杂推理任务中存在的逻辑连贯性不足问题。通过提供带有明确推理步骤的标注数据,它帮助模型突破传统端到端学习的局限,使研究者能够深入探索思维链提示的有效性。其结构化标注机制为理解模型推理过程提供了可解释性框架,推动了人工智能可解释性研究的发展,对提升模型逻辑推理能力具有里程碑意义。
衍生相关工作
围绕该数据集衍生的经典研究包括基于骨架提示的增量学习方法和多模态推理框架。研究者们通过扩展其标注体系开发了分层推理评估基准,并构建了融合视觉与文本的跨模态推理数据集。这些工作不仅深化了对语言模型推理机制的理解,还催生了新一代评估标准的建立,为后续研究提供了重要的理论支撑和方法论指导。
以上内容由遇见数据集搜集并总结生成



