five

mats-10-sprint-cs-jb/loracles-qwen3-8b-pretrain-loras

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/mats-10-sprint-cs-jb/loracles-qwen3-8b-pretrain-loras
下载链接
链接失效反馈
官方服务:
资源简介:
Qwen3-8B Loracle Pretrain LoRAs数据集是一个包含25个生物体的标准rank-16 LoRAs训练样本的小型验证语料库。这些样本是从ceselder/loracle-pretrain数据集中采样的,每个生物体都是一组嵌入的源文档,无需外部FineFineWeb拉取。数据集内容包括LoRA权重字典、残差流SVD方向令牌、生物体嵌入文档、QA行、合成URN映射、训练计划、文件清单和元数据等。训练配置详细说明了基础模型、源数据集版本、目标模块、层数、秩、学习率、步长等参数。此外,数据集还提供了加载原始LoRA权重的方法和示例代码。

The Qwen3-8B Loracle Pretrain LoRAs dataset is a small sanity corpus of standard rank-16 LoRAs trained on 25 organisms sampled from the ceselder/loracle-pretrain dataset. Each organism is a set of embedded source documents, and no external FineFineWeb pull is required. The dataset includes LoRA weight dictionaries, residual-stream SVD direction tokens, embedded organism documents, QA rows, synthetic URN mappings, training plans, file manifests, and metadata. The training configuration details the base model, source dataset revision, target modules, layers, rank, learning rate, steps, and other parameters. Additionally, the dataset provides methods and example code for loading raw LoRA weights.
提供机构:
mats-10-sprint-cs-jb
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自于对大规模预训练语料库的精细化采样,选取了来自loracle-pretrain数据集的25个有机体(organisms),每个有机体均包含一组嵌入的源文档,无需额外依赖FineWeb语料库。在此基础上,基于Qwen3-8B基座模型,对全部36层Transformer的7个核心模块(q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj)进行秩为16的低秩适配(LoRA)训练。训练采用alpha为64、缩放因子为4的配置,学习率设为3e-4,每有机体执行4个梯度步,最大序列长度为2048,训练目标为连续预训练中前10%令牌作为上下文、后90%令牌作为预测目标。最终产出的权重以MultiTaskLoRA字典形式存储于.pt文件中,而非标准PEFT适配器格式。
特点
数据集的一大特色在于其小巧而精密的规模,仅包含25个有机体的训练样本,却覆盖了从在线赌场机制到胰腺癌诊断、空气质量建模等多元主题,展现出极佳的主题多样性。每个有机体对应的LoRA权重均包含完整的36层×7模块×16秩的奇异向量方向令牌(direction tokens),形如[4032, 4096]的张量结构,以层为主序、模块为次序排列,并经奇异值缩放,便于后续的权重差值分析。此外,数据集中附带了基座模型与LoRA模型在相同文档上的损失对比(sanity check),平均损失下降超过1.2,直观验证了LoRA微调的有效性。
使用方法
该数据集专为loracle/weight-delta类型的权重差值实验设计,不适用于直接通过PeftModel.from_pretrained加载。用户可通过torch.load加载.pt文件,获取按模块名称索引的字典,每个模块包含bf16精度的A和B矩阵。例如,加载'loras/org_000729.pt'后,可访问各层的q_proj等模块的低秩分解矩阵。同时,配套的parquet文件(如selected_qa_rows.parquet)提供了每有机体的问答对数据,index.parquet记录了文件清单与元数据,sanity_eval.parquet则存储了基座与LoRA模型的损失对比结果,方便研究者进行深入分析和复现实验。
背景与挑战
背景概述
在大型语言模型持续预训练的研究前沿,低秩适配技术因其在参数高效微调中的卓越表现而备受关注。在此背景下,由研究人员ceselder主导构建的loracles-qwen3-8b-pretrain-loras数据集于近期应运而生,该数据集聚焦于探索LoRA权重增量在模型适配与知识注入中的内在规律。数据集以Qwen3-8B为基底模型,从ceselder/loracle-pretrain中精心采样25个有机体,每个有机体嵌入源文档,并针对全部36层、7个目标模块训练标准秩16的MultiTaskLoRA权重。该数据集通过提供残差侧奇异值分解方向令牌、详尽的训练配置与健全性校验,为研究LoRA权重的语义结构、方向性以及跨任务泛化能力提供了基础资源,对参数高效持续预训练与模型编辑领域具有重要推动作用。
当前挑战
该数据集所应对的领域核心挑战在于:传统全参数持续预训练虽能注入新知识,却面临极高的计算与存储成本,而现有LoRA方法在跨文档、多任务场景下缺乏对权重增量语义的深入理解。为此,数据集构建过程中需克服多重困难:首先,需从原始大型预训练语料中精准筛选出25个代表性强、主题分明的有机体,并确保每个有机体内的嵌入文档质量与一致性;其次,训练配置需在有限步数(每有机体4步)与序列长度(2048令牌)约束下,平衡上下文掩码与预测目标的设定,以实现有效的持续预训练效果;此外,需设计并提取残差侧SVD方向令牌(形状[4032, 4096]),该过程涉及对36层、7模块、16秩的权重增量进行分解与排序,对计算效率与数值稳定性均构成挑战;最终,还需构建健全性校验机制,验证LoRA微调相比基线模型的损失下降是否一致可靠,确保数据的可信度与可用性。
常用场景
经典使用场景
在大型语言模型持续预训练的研究中,loracles-qwen3-8b-pretrain-loras数据集作为低秩适配器(LoRA)权重微调的标准测试平台,广泛应用于验证轻量级参数高效微调方法在知识注入场景下的有效性。研究人员通常利用该数据集中的25个生物体(organisms)样本,每个样本包含嵌入式源文档,对Qwen3-8B模型进行指定模块(如q_proj、k_proj)的秩16 LoRA训练,以评估有限步数内模型对特定领域知识的适应能力。该数据集特别适合于探讨如何在保持基础模型能力的同时,通过极小规模梯度更新(每生物体4步)实现定向知识灌输,成为持续预训练研究中的基准性实验材料。
实际应用
在实际工业与科研应用中,该数据集所代表的LoRA预训练范式被广泛用于需要快速部署领域专精模型的情境。例如,在医疗诊断辅助系统中,基于此数据集的训练方法可帮助语言模型快速适应特定疾病(如胰腺癌)的临床知识库,而无需重新训练完整模型。同样,在环境监测领域,通过类似方式微调的模型能够准确理解空气质量建模等专业术语与定量关系。此外,在线服务场景中,如游戏玩法分析,该技术使模型能够掌握特定业态的行业术语和归因逻辑。这种高效适配策略大幅降低了计算资源需求,使得中小团队也能在有限算力下完成模型定制,加速了AI在垂直场景的落地进程。
衍生相关工作
该数据集直接催生了一系列关于权重增量(weight-delta)表示与知识定位的探索工作。其提出的方向令牌(direction tokens)——经由残差流侧SVD提取的奇异向量——启发了后续关于语言模型中知识单元的空间编码形态研究。相关学者据此构建了Loracle系列数据集,系统探究不同秩、不同模块组合对知识吸收效率的影响,并衍生出多任务LoRA(MultiTaskLoRA)训练策略。此外,基于该数据集开展的跨生物体知识迁移实验,促进了知识解耦与模块化编辑领域的发展,为构建可组合、可插拔的知识适配器提供了理论与实证基础。这些工作共同推动了参数微调从黑盒技术向可解释、可控的知识管理范式演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作