narrow-data
收藏Hugging Face2025-06-22 更新2025-06-23 收录
下载链接:
https://huggingface.co/datasets/ericjm/narrow-data
下载链接
链接失效反馈官方服务:
资源简介:
Narrow AI实验模型仓库包含用于支持论文'On the creation of narrow AI: hierarchy and nonlocality of neural network skills'的实验模型检查点和数据。数据集涵盖从零开始训练的LLM模型、基于属性裁剪和随机裁剪的模型,以及通过知识蒸馏训练的小型模型。每个模型都有详细的配置信息和训练结果。
创建时间:
2025-06-22
原始信息汇总
数据集概述:Narrow AI实验模型仓库
数据集来源
- 论文标题:"On the creation of narrow AI: hierarchy and nonlocality of neural network skills"
- 作者:Eric Michaud, Asher Parker-Sartori, Max Tegmark
主要内容
提供支持论文关键图表难以复现的LLM实验数据,包括:
- 训练曲线
- 模型性能数据(用于扩展分析和剪枝研究)
实验目录
1. trainscratch01/ - 从头训练的LLM
- 目的:小到中型LLM的扩展分析
- 模型范围:23M至1.6B参数
- 关键模型:
- d768_l12_h12/(338M参数)
- d2048_l32_h32/(1.6B参数)
- 训练配置:100K步GitHub代码数据集
- 对应图表:图6、图12
2. pruneandtrain01/ - 基于归因的剪枝
- 基础模型:NousResearch/Llama-3.2-1B
- 关键配置:
- n0.50_r0.50/(50%神经元+50%残差剪枝)
- n0.90_r0.50/(90%神经元+50%残差剪枝)
- 特殊文件:
- pruning_mask.pt(剪枝掩码)
- pruning_stats.json(归因分数)
- 对应图表:图6、12、13
3. pruneandtrainrandom00/ - 随机剪枝基线
- 对比配置:n0.50_r0.20/
- 对应图表:图13
4. distillscratch00/ - 知识蒸馏
- 教师模型:Meta-Llama-3.1-8B/Llama-3.2-3B
- 学生模型:d768_l12_h12架构
- 对应图表:图6、12
模型架构详情
参数规模
| 模型 | 隐藏层大小 | 层数 | 头数 | 中间层 | 参数量 |
|---|---|---|---|---|---|
| d256_l4_h4 | 256 | 4 | 4 | 1024 | ~23M |
| d512_l8_h8 | 512 | 8 | 8 | 2048 | ~92M |
| d768_l12_h12 | 768 | 12 | 12 | 3072 | ~338M |
| d2048_l32_h32 | 2048 | 32 | 32 | 8192 | ~1.6B |
剪枝配置
| 配置 | 神经元稀疏度 | 残差稀疏度 | 说明 |
|---|---|---|---|
| n0.50_r0.50 | 50% | 50% | 中等剪枝 |
| n0.90_r0.50 | 90% | 50% | 激进神经元剪枝 |
| n0.50_r0.20 | 50% | 20% | 轻度残差剪枝 |
文件结构
- 标准检查点:
- final_model/(最终模型)
- checkpoint-{step}/(每5K步中间检查点)
- model_stats.json(架构信息)
- 检查点文件:
- model.safetensors(模型权重)
- config.json(模型配置)
- tokenizer.json(分词器配置)
- 剪枝专用文件:
- pruning_mask.pt(~5GB)
- pruning_stats.json(~8MB)
技术细节
- 训练数据:codeparrot/github-code(Python子集)
- 序列长度:1024 tokens
- 训练步数:
- 从头训练:100K步
- 剪枝恢复:20K步
- 计算需求:
- 硬件:NVIDIA A100 80GB
- 存储:基础模型~50GB,完整存档~1TB
引用格式
bibtex @article{michaud2024narrow, title={On the creation of narrow AI: hierarchy and nonlocality of neural network skills}, author={Michaud, Eric and Parker-Sartori, Asher and Tegmark, Max}, journal={arXiv preprint}, year={2024} }
搜集汇总
数据集介绍

构建方式
该数据集围绕神经网络技能层次性与非局部性研究构建,采用多维度实验设计策略。研究团队通过从零训练不同规模的LLM模型(23M至1.6B参数),结合梯度归因剪枝与随机剪枝对比实验,系统探索模型能力形成机制。数据采集过程严格遵循实验科学规范,包含完整训练轨迹记录、剪枝决策统计及知识蒸馏结果,所有实验均在标准化计算环境下使用A100显卡完成,确保结果可复现性。
使用方法
使用者可通过HuggingFace标准接口加载预训练模型,或直接解析实验元数据文件进行深度分析。模型权重采用SafeTensors格式存储,配套完整的训练参数和分词器配置。对于剪枝研究,数据集提供二进制掩码文件和归因统计结果,支持通过PyTorch直接加载。建议结合论文提供的分析代码框架,利用训练历史数据重现性能曲线对比图,特别注意不同剪枝策略下模型恢复效率的差异化表现。
背景与挑战
背景概述
narrow-data数据集由Eric Michaud、Asher Parker-Sartori和Max Tegmark等研究人员于2024年创建,旨在支持其关于窄人工智能(Narrow AI)的研究工作。该数据集主要聚焦于探索神经网络技能的层次性与非局部性,通过提供从零开始训练的语言模型、基于梯度归因的剪枝模型以及知识蒸馏模型等多种实验数据,为研究神经网络的可扩展性和模型压缩提供了重要支持。该数据集不仅涵盖了多种模型架构和参数规模,还详细记录了训练曲线和剪枝决策等关键信息,为相关领域的研究人员提供了宝贵的实验依据。
当前挑战
narrow-data数据集所解决的核心挑战在于探索神经网络的可扩展性和模型压缩技术。具体而言,该数据集旨在回答如何通过剪枝和知识蒸馏等方法在保持模型性能的同时减少参数规模这一关键问题。在构建过程中,研究人员面临了多重挑战,包括大规模语言模型的训练成本高昂、剪枝过程中梯度归因计算的复杂性、以及如何在保持模型性能的同时实现高比例参数剪枝等。此外,数据集的构建还需要确保实验的可重复性,这要求研究人员详细记录每一步的实验设置和参数配置,进一步增加了数据集的构建难度。
常用场景
经典使用场景
在深度学习领域,模型的可解释性和效率一直是研究热点。narrow-data数据集通过提供从零训练的LLM模型、基于梯度的剪枝实验以及知识蒸馏的完整实验数据,为研究神经网络技能层次结构和非局部性提供了重要支持。该数据集最经典的使用场景是分析不同规模语言模型的训练前沿,比较剪枝策略对模型性能的影响,以及验证知识蒸馏在不同架构间的迁移效果。
解决学术问题
该数据集有效解决了神经网络研究中几个关键问题:模型规模与性能的缩放关系、梯度剪枝方法的有效性验证、以及知识蒸馏的跨架构迁移能力评估。通过提供包含23M到1.6B参数范围的模型训练曲线、不同稀疏度下的剪枝恢复数据,以及教师-学生模型的对比实验,为理解神经网络技能形成的层次结构提供了实证基础,推动了模型压缩和可解释性研究的发展。
实际应用
在实际应用中,narrow-data支持了高效语言模型的开发与优化。基于该数据集的剪枝方法可直接应用于模型部署前的压缩阶段,显著降低计算资源需求;知识蒸馏实验为移动端轻量级模型的训练提供了参考方案;而不同规模模型的训练曲线分析则指导了工业界在算力投入与模型性能间的权衡决策,特别是在代码生成等专业领域任务中。
数据集最近研究
最新研究方向
随着大语言模型(LLM)技术的迅猛发展,模型压缩与高效训练成为当前研究热点。narrow-data数据集为探索神经网络技能层次结构与非局部性提供了关键实验支撑,其最新研究聚焦于三大方向:基于梯度归因的模型剪枝技术通过量化神经元重要性实现精准参数裁剪,在保持模型性能的同时显著降低计算开销;知识蒸馏框架下的小模型训练策略,利用Llama等大模型作为教师网络,有效提升学生模型的泛化能力;从零开始训练的中等规模LLM架构优化,通过隐藏层维度与注意力头数的系统配置,为模型缩放规律研究提供实证基础。这些方向共同推动着高效专用人工智能(Narrow AI)的发展,对边缘计算与资源受限场景具有重要应用价值。
以上内容由遇见数据集搜集并总结生成



